Modélisation et suivi des déformations faciales : applications à la description des expressions du visage dans le contexte de la langue des signes - TEL - Thèses en ligne Accéder directement au contenu
Thèse Année : 2007

Modélisation et suivi des déformations faciales : applications à la description des expressions du visage dans le contexte de la langue des signes

Résumé

The face, and particularly the meaning of its expressions, plays an important role in sign languages. A few studies on facial expressions in sign language exist. This is due to the lack of description tools. In this thesis, we develop methods that allow accurate and comprehensive description of the different facial movements observed during a sign language video.

We use here the Active Appearance Model formalism (AAM) in order to model face, in terms of interest point displacements and texture variations. When used with an optimization method, this formalism allows to find interest point coordinates on a face. We use here an optimization method called "inverse compositional'', that can be used to obtain accurate results in an efficient manner.

In the sign language context, out-of-plane rotations and hand occlusions occur frequently. Thus, the development of robust methods is needed. It exists, for that purpose, a robust flavor of the AAM optimization methods that allow to consider the input image as being noisy.

We extended it in order to detect occlusions in an automatic manner, with the assumption that the algorithm behavior in the unoccluded case is known.

The algorithm result consists in 2D coordinates of each interest points in each image of a video sequence, eventually linked with a confidence value. These raw results can then be used for different applications.

We thus propose to describe an expressive video sequence, at each frame, as being a linear combination of unitary facial deformations activated with different intensities. Another original application consists in a video processing that prevents the face from being identified, while keeping unchanged the meaning of its expressions.
Le visage joue un rôle prépondérant en langue des signes, notamment par le sens porté par ses expressions. Peu d'études existent sur les expressions faciales en langue des signes ; cela est dû au manque d'outil de description. Dans cette thèse, il s'agit de développer des méthodes permettant la description la plus précise et exhaustive possible des différents mouvements faciaux observables au cours d'une séquence vidéo de langue des signes.

Le formalisme des modèles à apparence active (Active Appearance Models - AAM) est utilisé ici pour modéliser le visage en termes de déplacements d'un certain nombre de points d'intérêt et en termes de variations de texture. Quand il est associé à une méthode d'optimisation, ce formalisme permet de trouver les coordonnées des points d'intérêt sur un visage. Nous utilisons ici une méthode d'optimisation dite "à composition inverse", qui permet une implémentation efficace et l'obtention de résultats précis.

Dans le contexte de la langue des signes, les rotations hors-plan et les occultations manuelles sont fréquentes. Il est donc nécessaire de développer des méthodes robustes à ces conditions. Il existe pour cela une variante robuste des méthodes d'optimisation d'AAM qui permet de considérer une image d'entrée éventuellement bruitée.
Nous avons étendu cette variante de façon à ce que la détection des occultations puisse se faire de manière automatique, en supposant connu le comportement de l'algorithme dans le cas non-occulté.
Le résultat de l'algorithme est alors constitué des coordonnées 2D de chacun des points d'intérêt du modèle en chaque image d'une séquence vidéo, associées éventuellement à un score de confiance. Ces données brutes peuvent ensuite être exploitées dans plusieurs applications.

Nous proposons ainsi comme première application de décrire une séquence vidéo expressive en chaque instant par une combinaison de déformations unitaires activées à des intensités différentes. Une autre application originale consiste à traiter une vidéo de manière à empêcher l'identification d'un visage sans perturber la reconnaissance de ses expressions.
Fichier principal
Vignette du fichier
2007.09.02_These_HM.pdf (3.32 Mo) Télécharger le fichier
2007.22.03_Soutenance_HM.pdf (6.29 Mo) Télécharger le fichier
Format : Autre

Dates et versions

tel-00185084 , version 1 (05-11-2007)

Identifiants

  • HAL Id : tel-00185084 , version 1

Citer

Hugo Mercier. Modélisation et suivi des déformations faciales : applications à la description des expressions du visage dans le contexte de la langue des signes. Interface homme-machine [cs.HC]. Université Paul Sabatier - Toulouse III, 2007. Français. ⟨NNT : ⟩. ⟨tel-00185084⟩
275 Consultations
1297 Téléchargements

Partager

Gmail Facebook X LinkedIn More