Contributions à la reconnaissance automatique de la parole avec données manquantes - TEL - Thèses en ligne Accéder directement au contenu
Thèse Année : 2007

Contributions to automatic speech recognition with missing data

Contributions à la reconnaissance automatique de la parole avec données manquantes

Résumé

This thesis dissertation proposes, as a first step, a detailed introduction to the automatic speech recognition with missing data supported by many bibliographic references. It is shown that the estimation of masks is a crucial step. Indeed, the quality of the estimated masks determines the performance of the recognition system. Improving the reliability of masks is thus an important issue. In a second step, new investigations in the field of Bayesian missing data mask estimation are presented. I propose first new mask models to model dependencies between the masks of different coefficients of a signal. These models are evaluated and compared to a reference model. The results are presented in terms of error of masks, as well as recognition rate. The results show that these dependencies contribute to improving the recognition rate and stress the importance of the temporal context of a mask. Second, I introduce a new missing data mask definition: the masks of contribution. These new masks are evaluated compared to masks commonly used, based on the SNR thresholding. I show how the decoding algorithm can be improved with such a mask definition by refining the likelihood marginalization intervals. The assessment, in the context of data marginalization and in the presence of a stationary noise, shows that the intervals are considerably reduced resulting in a significant improvement of the recognition rate.
Ce mémoire propose, dans un premier temps, une introduction détaillée de la reconnaissance automatique de la parole avec données manquantes appuyée par de nombreuses références bibliographiques. Il est montré que l'estimation de masques constitue une étape cruciale. En effet, la qualité des masques estimés conditionne les performances du système de reconnaissance. L'amélioration de la fiabilité des masques constitue donc un enjeu important. Dans un second temps, les travaux menés dans le cadre de l'estimation bayésienne des masques de données manquantes sont présentés. D'une part je propose de nouveaux modèles de masques permettant de modéliser les dépendances entre les masques de différents coefficients d'un signal. Ces modèles sont évalués comparativement à un modèle de référence. Les résultats sont présentés en termes d'erreur de masques ainsi qu'en taux de reconnaissance. Les résultats montrent que ces dépendances contribuent à améliorer les taux de reconnaissance et soulignent l'importance du contexte temporel d'un masque. Je présente, dans un second temps, une nouvelle définition de masque: les masques de contribution. Ces nouveaux masques sont évalués comparativement aux masques usuellement utilisés, fondés sur le seuillage du SNR. Je montre que cette nouvelle définition permet d'améliorer l'algorithme de décodage en affinant les intervalles de marginalisation. L'évaluation, dans le cadre de la marginalisation de données et en présence d'un bruit stationnaire, montrent que les intervalles sont considérablement réduits entraînant une nette amélioration des taux de reconnaissance.
Fichier principal
Vignette du fichier
These_Sebastien_Demange.pdf (1.51 Mo) Télécharger le fichier

Dates et versions

tel-01748268 , version 2 (15-11-2007)
tel-01748268 , version 3 (05-02-2008)
tel-01748268 , version 1 (29-03-2018)

Identifiants

  • HAL Id : tel-01748268 , version 3

Citer

Sébastien Demange. Contributions à la reconnaissance automatique de la parole avec données manquantes. Acoustique [physics.class-ph]. Université Henri Poincaré - Nancy 1, 2007. Français. ⟨NNT : ⟩. ⟨tel-01748268v3⟩
234 Consultations
217 Téléchargements

Partager

Gmail Facebook X LinkedIn More