211 articles  [english version]
Fiche détaillée Thèses
Université de Grenoble (26/10/2011), Pierre Badin (Dir.)
Liste des fichiers attachés à ce document : 
PDF
Ben-Youssef_Atef_PhD-2011.pdf(4.2 MB)
Contrôle de têtes parlantes par inversion acoustico-articulatoire pour l'apprentissage et la réhabilitation du langage
Atef Ben Youssef1

Cette thèse présente un système de retour articulatoire visuel, dans lequel les articulateurs visibles et non visibles d'une tête parlante sont contrôlés par inversion à partir de la voix d'un locuteur. Notre approche de ce problème d'inversion est basée sur des modèles statistiques élaborés à partir de données acoustiques et articulatoires enregistrées sur un locuteur français à l'aide d'un articulographe électromagnétique. Un premier système combine des techniques de reconnaissance acoustique de la parole et de synthèse articulatoire basées sur des modèles de Markov cachés (HMMs). Un deuxième système utilise des modèles de mélanges gaussiens (GMMs) pour estimer directement les trajectoires articulatoires à partir du signal acoustique. Pour généraliser le système mono-locuteur à un système multi-locuteur, nous avons implémenté une méthode d'adaptation du locuteur basée sur la maximisation de la vraisemblance par régression linéaire (MLLR) que nous avons évaluée à l'aide un système de reconnaissance articulatoire de référence. Enfin, nous présentons un démonstrateur de retour articulatoire visuel.
1 :  GIPSA-lab - Grenoble Images Parole Signal Automatique
retour articulatoire visuel – inversion acoustique-articulatoire – articulographe électromagnétique – modèles de Markov cachées – modèles de mélanges gaussiens – adaptation au locuteur – inversion des mouvements faciaux vers les mouvements linguaux
http://www.afcp-parole.org/doc/theses/these_BYA11.pdf

Control of talking heads by acoustic-to-articulatory inversion for language learning and rehabilitation
This thesis presents a visual articulatory feedback system in which the visible and non visible articulators of a talking head are controlled by inversion from a speaker's voice. Our approach to this inversion problem is based on statistical models built on acoustic and articulatory data recorded on a French speaker by means of an electromagnetic articulograph. A first system combines acoustic speech recognition and articulatory speech synthesis techniques based on hidden Markov Models (HMMs). A second system uses Gaussian mixture models (GMMs) to estimate directly the articulatory trajectories from the speech sound. In order to generalise the single speaker system to a multi-speaker system, we have implemented a speaker adaptation method based on the maximum likelihood linear regression (MLLR) that we have assessed by means of a reference articulatory recognition system. Finally, we present a complete visual articulatory feedback demonstrator.
visual articulatory feedback – acoustic-to-articulatory speech inversion mapping – ElectroMagnetic Articulography (EMA) – hidden Markov models (HMMs) – Gaussian mixture models (GMMs) – speaker adaptation – face-to-tongue mapping