207 articles  [english version]
Fiche détaillée Thèses
Institut National Polytechnique de Grenoble - INPG (11/12/2007), Denis Beautemps (Dir.)
Liste des fichiers attachés à ce document : 
PDF
these_aboutabit.pdf(3.4 MB)
Reconnaissance de la Langue Française Parlée Complété (LPC) : décodage phonétique des gestes main-lèvres.
Noureddine Aboutabit1

La Langue Française Parlée Complétée (LPC) héritée du Cued Speech (CS) a été conçue pour compléter la lecture labiale par nature ambigüe et ainsi améliorer la perception de la parole par les sourds profonds. Dans ce système, le locuteur pointe des positions précises sur le côté de son visage ou à la base du cou en présentant de dos des formes de main bien définies. La main et les lèvres portent chacune une partie complémentaire de l'information phonétique. Cette thèse présente tout d'abord une modélisation du flux manuel pour le codage automatique des positions de la main et de la configuration. Puis les travaux sont centrés sur le flux labial en discutant la classification des voyelles et des consonnes du Français. Le flux labial est composé des variations temporelles de paramètres caractéristiques issus du contour interne et externe des lèvres. Dans le cas des voyelles la méthode de classification utilise la modélisation gaussienne et les résultats montrent une performance moyenne de 89 % en fonction de la position de la main LPC. Le contexte vocalique est pris en compte dans le cas des consonnes par une modélisation HMM de la transition labiale de la consonne vers la voyelle avec un taux d'identification de 80 % en termes de visèmes CV. Un modèle de fusion « Maître-Esclave » piloté par le flux manuel est présenté et discuté dans le cadre de la reconnaissance des voyelles et des consonnes produites en contexte LPC. Le modèle de fusion prend en compte les contraintes temporelles de la production et la perception du LPC, ce qui constitue aussi une première contribution à la modélisation du système LPC du point de vue perceptif.
1 :  GIPSA-lab - Grenoble Images Parole Signal Automatique
lecture labiale – modélisation des lèvres – classification des voyelles et consonnes – visèmes – analyse et reconnaissance des gestes – fusion des informations – Langue Française Parlée Complétée (LPC).

French Cued Speech recognition : phonetic translation of hand-lips gestures.
Cued Speech (CS) is a visual communication system that uses handshapes placed in different positions near the face, in combination with the natural speech lip-reading, to enhance speech perception from visual input for deaf people. In this system, the speaker moves his hand in close relation with speech. Handshapes are designed to distinguish among consonants whereas hand positions are used to distinguish among vowels. Due to the CS system, both manual and lip flows produced by the CS speaker carry a part of the phonetic information. This work presents at first a method for the automatic coding of the manual flow in term of CS hand positions and CS handshapes. Then the lip-shape classification of the vowels and the consonants is discussed. The labial flow is composed of the temporal variations of lip parameters extracted from the inner and the outer contours of the lips. This work will show how the distribution of lip parameters inside each group of CS hand positions allows vowel discrimination. A classification method based on Gaussian modeling is presented and results demonstrate a good performance of this classification (89% as test score). The vocalic context is taken into account in the case of the consonants, with the use of HMM for the modeling of the lip transition from the consonant towards the vowel (80 % as test scores in term of CV visemes). Finally, the modeling of the lip information and the coding of the manual flow are included in a “Master-Slave” fusion model for recognition of the vowels and the consonants in the CS context. The fusion model integrates the temporal constraints of the CS production and perception. This work is thus also a first contribution to the modeling of the CS system from the perceptive point of view.
Lipreading – Lip Modeling – Vowel and Consonant Classification – Visemes – Cued Speech – fusion process – gesture recognition.