10 articles  [english version]
Fiche détaillée Thèses
Institut National Polytechnique de Grenoble - INPG (2006-12-08), Frédéric Berthommier & Gang Feng (Dir.)
Liste des fichiers attachés à ce document : 
PDF
manuscrit_fontecave.pdf(5.8 MB)
Extraction semi-automatique des mouvements du tractus vocal à partir de données cinéradiographiques
Julie Fontecave1

Le travail présenté dans cette thèse est basé sur deux observations. D'abord il existe de longues séquences cinéradiographiques du conduit vocal en parole naturelle qui sont sous exploitées à cause du travail laborieux qu'implique le marquage manuel des images de ces séquences. Ensuite la cinéradiographie est une technique généralement bien cadrée qui se prête à l'application d'un algorithme dit de rétro-marquage. Le principe est d'associer des paramètres implicites et extraits du signal vidéo à des paramètres géométriques contrôlés et définis a posteriori, plutôt que d'extraire directement des données géométriques à l'aide de marqueurs. La méthode semi-automatique d'extraction de contours du conduit vocal que nous proposons est une adaptation de cet algorithme et permet de minimiser l'intervention manuelle. Pour une séquence et un articulateur donnés, une première étape consiste à marquer manuellement, sur un nombre limité d'images clefs, quelques degrés de liberté définissant le contour de l'articulateur. Dans un deuxième temps, ces marques géométriques sont associées à chaque image de la séquence via un index calculé à partir des coefficients DCT basses fréquences des images : on associe à chaque image l'index de l'image clef la plus proche. Cette technique, en une passe, permet ainsi de reconstruire des données géométriques dynamiques. Chaque articulateur (langue, vélum, lèvres...) est d'abord estimé de manière indépendante par la méthode, puis les contours extraits sont combinés pour récupérer la forme du conduit vocal complet. De là, les distances médio-sagittales du tractus vocal et les fonctions d'aire associées sont calculées pour la séquence entière.

La première partie de ce manuscrit présente la méthode développée et l'évaluation de l'erreur de marquage. La seconde partie tente de valider phonétiquement les configurations géométriques estimées. Une première étude basée sur les voyelles permet de retrouver des résultats classiques en phonétique en fonction des différentes classes vocaliques. Les fréquences caractéristiques des voyelles, ou formants, estimées à partir des contours sont ensuite considérées, avec l'utilisation d'un modèle d'association linéaire d'une part et celle d'un modèle acoustique d'autre part. A l'aide de ce dernier, la synthèse d'un signal de parole intelligible est réalisée à partir des contours extraits, en estimant de façon complémentaire, depuis le signal audio, la source et la modulation d'amplitude en 2 sous-bandes. Enfin, nous prolongeons l'étude dynamique par deux observations : l'une sur la production des consonnes et l'autre sur les mouvements du vélum. L'ensemble de ces résultats montre que la méthode proposée peut être utilisée pour exploiter, d'un point de vue phonétique, ces longues séquences cinéradiographiques.
1 :  ICP - Institut de la communication parlée
Cinéradiographie – parole – extraction de contours – mouvements du conduitvocal – langue – lèvres – vélum – relation articulatoire-acoustique – formants

The work described in this dissertation is grounded by two major findings. Firstly, long existing sequences of cineradiographic data of the vocal tract in the context of continuous speech are under-exploited; indeed the manual marking of a complete sequence is a too laborious task. Secondly, cineradiography is generally well framed and then adapted to the use of the retro-marking algorithm. This latter builds a transformation function of implicit parameters, extracted from the video signal, into explicit and controlled geometrical parameters. The one-path semi-automatic technique of vocal tract contours extraction presented here is based on an adaptation of this algorithm and allows to minimize the user interaction. For one sequence and one articulator, a first step consists in a manual processing applied for a small number of key images and defining the geometrical features. Then an automatic indexing step of the full sequence according to these key images and based on low frequency DCT components allows an association of the geometrical marking for each frame. This treatment is applied independently for each articulator (tongue, velum, lips, etc.); the acquired contours are then combined to obtain the shape of the whole vocal tract. The computation of the mid-sagittal sections and area functions is furthermore realized for the whole sequence.

In the first part, we describe the proposed method and we evaluate the reconstruction error. The second part tends to phonetically validate the estimated geometrical configurations and to know if our measures are enough precise to be associated with speech temporal and spectral features. With a study based on vowels, we show that we recover some standard phonetic results. Formants are then considered, by using two competing approaches: a linear model and an acoustic one. With this latter, by introducing a 2-subbands amplitude modulation extracted from the original audio signal, the synthesis of intelligible speech is realized. At last, two subsequent studies are carried out, focusing on the consonants and on the velum. All these results show that the proposed method can be used to phonetically exploit these long cineradiographic sequences of speech.
Cineradiography – speech – contour extraction – vocal tract movements – tongue – lips – velum – articulatory-acoustic relation – formants