Méthodes d'apprentissage pour l'estimation de la pose de la tête dans des images monoculaires

Kévin Bailly

Thèse Année : 2010

Learning-based head pose estimation in monocular images

Méthodes d'apprentissage pour l'estimation de la pose de la tête dans des images monoculaires

(1)

Kévin Bailly

Fonction : Auteur
PersonId : 181765
IdHAL : kevin-bailly
ORCID : 0000-0001-7802-3673
IdRef : 178678244

Institut des Systèmes Intelligents et de Robotique

Résumé

This doctoral research is part of PILE, a medical project which aims at analyzing baby's gazes, gestures and vocalizations. In this context, we have designed and developed methods for determining the head pose which constitutes the cornerstone of a system for estimating the gaze direction. From a methodological point of view, we have proposed BISAR (Boosted Input Selection Algorithm for Regression), a feature selection method which is well adapted to regression problems. It consists in iteratively selecting inputs of an incremental neural network. Each input corresponds to a feature selected by our Fuzzy Functional Criterion. The latter measures the functional relation between a feature and the values to predict. The features complementarity is provided by a boosting process that changes weight distribution on the training examples. This algorithm has been experimentally validated in two head pose estimation methods. The first approach directly learns the relationship between the appearance of a face and its corresponding pose. The second approach aligns a face model in an image and then calculates the geometric orientation of this model. The alignment process is based on a cost function that evaluates the quality of the fitness. This function is learned by BISAR from examples of aligned and misaligned models. Evaluations of these methods have given state of the art results on different test sets with large variations in pose, identity, illumination and shooting conditions.

Cette thèse s'inscrit dans le cadre de PILE, un projet médical d'analyse du regard, des gestes, et des productions vocales d'enfants en bas âge. Dans ce contexte, nous avons conçu et développé des méthodes de détermination de l'orientation de la tête, pierre angulaire des systèmes d'estimation de la direction du regard. D'un point de vue méthodologique, nous avons proposé BISAR (Boosted Input Selection Algorithm for Regression), une méthode de sélection de caractéristiques adaptée aux problèmes de régression. Elle consiste à sélectionner itérativement les entrées d'un réseau de neurones incrémental. Chaque entrée est associée à un descripteur sélectionné à l'aide d'un critère original qui mesure la dépendance fonctionnelle entre un descripteur et les valeurs à prédire. La complémentarité des descripteurs est assurée par un processus de boosting qui modifie, à chaque itération, la distribution des poids associés aux exemples d'apprentissage. Cet algorithme a été validé expérimentalement au travers de deux méthodes d'estimation de la pose de la tête. La première approche apprend directement la relation entre l'apparence d'un visage et sa pose. La seconde aligne un modèle de visage dans une image, puis estime géométriquement l'orientation de ce modèle. Le processus d'alignement repose sur une fonction de coût qui évalue la qualité de l'alignement. Cette fonction est apprise par BISAR à partir d'exemples de modèles plus ou moins bien alignés. Les évaluations de ces méthodes ont donné des résultats équivalents ou supérieurs aux méthodes de l'état de l'art sur différentes bases présentant de fortes variations de pose, d'identité, d'illumination et de conditions de prise de vues.

Mots clés

head pose estimation flexible model face alignment feature selection incremental neural network machine learning

pose de la tête modèle déformable alignement sélection de descripteurs régression réseau de neurones incrémental apprentissage automatique boosting

Domaines

Interface homme-machine [cs.HC]

Fichier principal

These.pdf (12.38 Mo)

Kevin Bailly : Connectez-vous pour contacter le contributeur

https://theses.hal.science/tel-00560836

Soumis le : dimanche 30 janvier 2011-20:32:15

Dernière modification le : vendredi 24 mars 2023-14:52:54

Archivage à long terme le : jeudi 30 mars 2017-06:05:30

Dates et versions

tel-00560836 , version 1 (30-01-2011)

Identifiants

HAL Id : tel-00560836 , version 1

Citer

Kévin Bailly. Méthodes d'apprentissage pour l'estimation de la pose de la tête dans des images monoculaires. Interface homme-machine [cs.HC]. Université Pierre et Marie Curie - Paris VI, 2010. Français. ⟨NNT : ⟩. ⟨tel-00560836⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

UPMC CNRS THESES-UPMC ISIR SORBONNE-UNIVERSITE THESES-SU SU-SCIENCES ISIR_PIROS

407 Consultations

1830 Téléchargements

Learning-based head pose estimation in monocular images

Méthodes d'apprentissage pour l'estimation de la pose de la tête dans des images monoculaires

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager