Contributions à la reconnaissance automatique de la parole avec données manquantes - TEL - Thèses en ligne Accéder directement au contenu
Thèse Année : 2007

Contributions to automatic speech recognition with missing data

Contributions à la reconnaissance automatique de la parole avec données manquantes

Résumé

Automatic speech recognition with missing data was proposed first a decade ago.
Such an approach is characterized by identifying, in the power spectrum, the coefficients too corrupted by noise to provide the recognizer with relevant information.
This identification or labeling produces a pattern called missing data mask.
Our work is focused on bayesian mask estimation, since it determines recognition performance.
We propose new approaches in order to improve mask quality.
Results show the benefit of our appraoches compared to the state of the art.
La reconnaissance de la parole avec données manquantes fut proposée il y a une dizaine d'années.
Une telle approche se caractérise par l'identification, dans le spectre de puissance du signal à reconnaître, des coefficients trop corrompus par le bruit pour fournir une information pertinente au moteur de reconnaissance.
Cette identification, ou étiquetage des coefficients produit un masque de données manquantes.
Différents algorithmes de décodage sont ensuite mis en oeuvre permettant d'adapter le traitement de chaque coefficient spectral en fonction de son masque.
L'estimation des masques constitue le point central de cette approche puisque qu'elle conditionne les performances du système.
Nos travaux s'inscrivent dans le cadre de l'estimation bayésienne des masques.

Nous proposons, dans un premier temps, de prendre en compte les corrélations existantes entre les masques des différents coefficients d'un même signal.
Nous considérons deux types de corrélations: les dépendances temporelles et les dépendances fréquentielles.
Nous proposons alors de nouveaux modèles de masques permettant de prendre en compte individuellement ou conjointement ces dépendances.
Ces modèles sont évalués comparativement à un modèle de référence estimant le masque de chaque coefficient indépendamment des masques des autres coefficients.
Les meilleures performances sont obtenues à partir des seules dépendances temporelles permettant un gain significatif en terme de taux de reconnaissance par rapport au modèle de référence et soulignent l'importance du contexte temporel d'un masque.

Nous proposons dans un second temps, une nouvelle définition de masque: les masques de contribution.
Ce nouveau masque est évalué comparativement aux masques fondés sur le seuillage du SNR en présence d'un bruit stationnaire dans le cadre de la marginalisation de données.
Nous montrons que cette nouvelle définition permet d'améliorer l'algorithme de décodage en affinant les intervalles de marginalisation.
Les résultats montrent que les intervalles de marginalisation sont considérablement réduits entraînant une nette amélioration des taux de reconnaissance.
Fichier principal
Vignette du fichier
PhD_Seb_Demange.pdf (3.95 Mo) Télécharger le fichier

Dates et versions

tel-01748268 , version 2 (15-11-2007)
tel-01748268 , version 3 (05-02-2008)
tel-01748268 , version 1 (29-03-2018)

Identifiants

  • HAL Id : tel-01748268 , version 2

Citer

Sébastien Demange. Contributions à la reconnaissance automatique de la parole avec données manquantes. Acoustique [physics.class-ph]. Université Henri Poincaré - Nancy I, 2007. Français. ⟨NNT : ⟩. ⟨tel-01748268v2⟩
234 Consultations
217 Téléchargements

Partager

Gmail Facebook X LinkedIn More