Studies in Signal Processing for Robust Speech Recognition in Noisy and Reverberant Environments

Kenko Ota

Thèse Année : 2008

Studies in Signal Processing for Robust Speech Recognition in Noisy and Reverberant Environments

Traitement du signal pour la reconnaissance de la parole robuste dans des environnements bruités et réverbérants

(1)

Kenko Ota

Fonction : Auteur
PersonId : 848160

Laboratoire d'Automatique, Génie Informatique et Signal

Résumé

Speech recognition technology reaches almost a practical level if we use a close contact microphone in quiet environments. However, in case microphones are located at a distant position from a speaker, it is necessary to develop noise reduction and dereverberation techniques. A technique for reducing obstructive sounds emitted by the target apparatus to be controlled is proposed. The proposed system uses harmonic structure of voiced segments which conventional ANCs does not directly take into account. A new dereverberation technique considering the frequency characteristics on reflective surfaces is also proposed. Over-subtraction occurs in conventional dereverberation in case of flat frequency characteristics. So, it is required to estimate the actual reverberation time assuming the frequency characteristics of reflection. Proposed is a single channel blind dereverberation technique using auto-correlation functions on the time sequences of frequency components. A technique to escape from the permutation problem which appears in frequency-domain Independent Component Analysis (ICA) is also proposed : the Multi-bin ICA (MB-ICA). Finally, a technique to estimate speech spectrum using a particle filter with a single microphone is proposed. This technique consists in estimating noise and speech spectra using a model based on Dirichlet Process Mixture (DPM) instead of the Gaussian Mixture Model (GMM). It is thus expected to develop a method to estimate the spectrum adaptively.

Les technologies de la reconnaissance de la parole ont des performances acceptables si l'on utilise un micro dans des environnements calmes. Si des micros se situent à une position distante d'un locuteur, il faut développer des techniques de la soustraction de bruits et de réverbération. Une technique pour réduire des sons émis par les appareils environnants est proposée. Bien que l'annulation adaptative du bruit (ANC) soit une solution possible, l'excès de soustraction peut causer la distorsion de la parole estimée. Le système proposé utilise la structure harmonique des segments vocaliques que les ANCs conventionnels n'a pas prise en compte directement. La méthode de déréverbération conventionnelle provoque l'excès de soustraction car on suppose que la caractéristique de fréquence, est plate. Il faut donc estimer le temps réel de réverbération pour résoudre ce problème. On propose une méthode de déréverbération aveugle utilisant un micro avec des fonctions d'autocorrélation sur la séquence de composants à chaque fréquence. Une technique pour échapper au problème de permutation qui se provoque lorsqu'on utilise l'analyse en composantes indépendantes (ICA) dans le domaine de fréquence, est également proposée : le Multi-bin ICA. Enfin, ce travail propose une technique pour estimer les spectres de bruit et de parole sans développer de modèle de gaussienne à mélange (GMM). Le spectre de la parole est modélisé à l'aide mélange de processus de Dirichlet (Dirichlet Process Mixture : ‘DPM') au lieu du GMM.

Mots clés

Traitement du signal Reconnaissance de la parole Annulation adaptative de bruit Déréverbération Analyse en composantes indépendantes Mélange de gaussiennes Mélange de processus de Dirichlet Inférence Bayésiennes

Domaines

Traitement du signal et de l'image [eess.SP]

Fichier principal

theseOTAkenkodefinitive.pdf (3.33 Mo)

Kenko Ota : Connectez-vous pour contacter le contributeur

https://theses.hal.science/tel-00260343

Soumis le : jeudi 3 avril 2008-14:08:11

Dernière modification le : vendredi 24 mars 2023-14:52:50

Archivage à long terme le : jeudi 20 mai 2010-22:54:55

Dates et versions

tel-00260343 , version 1 (03-04-2008)

Identifiants

HAL Id : tel-00260343 , version 1

Citer

Kenko Ota. Studies in Signal Processing for Robust Speech Recognition in Noisy and Reverberant Environments. Signal and Image processing. Ecole Centrale de Lille, 2008. English. ⟨NNT : ⟩. ⟨tel-00260343⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

CNRS LAGIS

173 Consultations

343 Téléchargements

Studies in Signal Processing for Robust Speech Recognition in Noisy and Reverberant Environments

Traitement du signal pour la reconnaissance de la parole robuste dans des environnements bruités et réverbérants

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager