Système multi-caméras pour l'analyse de la posture humaine

Laetitia Gond

Résumé

Human pose analysis from images is a challenging task due to both the complexity of human body (as a result of the high number of degrees of freedom of the body and the variability of human appearance) and the visual ambiguities inherent to the use of image projection (lack of depth information, self occlusions...). However, the number of potential applications, such as virtual reality, human-computer interaction or athletes' gesture analysis, has intensified the interest for this topic within the computer vision community. This thesis presents a procedure to recover the pose of an articulated body model from the images acquired by several static and calibrated cameras, observing a person moving inside a room. The proposed method does not make any assumption on the knowledge of the previous state estimates in the sequence, and so avoids the problem of initialization and lost tracks. Our goal is to provide a first step to a robust and real-time posture analysis for applications such as scene interpretation and visual surveillance. A background subtraction algorithm is first used to compute binary silhouettes of the body from each camera. A 3D voxel reconstruction of the visual hull is then obtained through a Shape from Silhouettes algorithm. This 3D shape merges all the information about image data and camera calibration, and can make the estimation independent of camera setup given enough viewpoints. We then propose a regression-based estimation : the mapping between the 3D silhouette and the configuration of the human body is learnt during an offline training phase. The learnt model contains a priori information and allows a direct prediction of the pose from the low-level image features (encoded by the visual hull). The cost of the estimation is reduced because the main part of the modelling computation is done during the off-line training stage. Training examples have been synthesized with animation and rendering software. A new 3D shape descriptor has been proposed to encode the 3D shape in a low-dimensional vector and give it as input to the regression process. Various possibilities have been tested concerning body parameterization, configuration of the shape descriptor, regression, camera setup...Throughout this thesis, all the proposed methods are quantitatively evaluated on synthetic data for a ground truth comparison, and qualitatively demonstrated on real sequences of walking and gesture movements.

L'analyse de la posture d'un humain à partir d'images est un problème difficile en raison à la fois de la complexité de l'objet étudié (causée entre autres par le nombre de degrés de liberté et la forte variabilité d'apparences entre les personnes) et des ambiguïtés visuelles introduites par le système d'observation (liées aux phénomènes d'auto-occultation et à la perte d'information sur la profondeur). La diversité de ses applications potentielles - comme la réalité virtuelle, l'interface homme machine, l'analyse du geste sportif...- en fait toutefois un sujet de recherche très actif. Cette thèse présente un système d'estimation de la configuration d'un modèle articulé du corps à partir des images acquises par un système de caméras fixes et calibrées, observant une personne évoluant dans une pièce. La méthode proposée ne suppose pas de connaissance sur les estimations précédentes dans la vidéo, et s'affranchit donc des éventuels problèmes d'initialisation ou de perte de suivi. L'objectif de ce travail est d'ouvrir la voie vers une analyse robuste et temps-réel de la posture pour l'interprétation de scènes et la vidéo surveillance. L'analyse s'appuie tout d'abord sur une extraction de la silhouette pour chacune des caméras par une méthode de soustraction de fond. Une reconstruction en voxels de l'enveloppe visuelle du corps est ensuite obtenue grâce à un algorithme de Shape from Silhouettes. Cette enveloppe 3D fusionne les primitives extraites des images et les informations sur la géométrie du système d'acquisition, et représente un moyen de rendre l'estimation plus indépendante du placement des caméras. L'estimation est ensuite basée sur une régression : l'application permettant de passer de la forme 3D reconstruite à la configuration du corps correspondante est modélisée durant une phase d'apprentissage. Les informations a priori intégrées dans le modèle appris permettent une prédiction directe de la pose à partir des données images (représentées par l'enveloppe visuelle). Le temps de calcul associé à l'estimation est réduit car le travail de modélisation est reporté sur la phase d'entrainement effectuée hors-ligne. Des bases v tel-00725684, version 1 - 27 Aug 2012 vi d'apprentissage synthétiques ont été créées grâce à des logiciels d'animation d'avatars et de rendu 3D. Pour encoder de manière concise la géométrie de l'enveloppe visuelle, un nouveau descripteur 3D a été proposé. Différentes possibilités sur la paramétrisation du mouvement du corps, la complexité du descripteur, la méthode de régression, la configuration des caméras...ont été envisagées et testées. Toutes les méthodes proposées sont évaluées quantitativement sur des données synthétiques, qui permettent une comparaison à la vérité terrain. La robustesse du système est éprouvée qualitativement grâce à des tests sur des séquences réelles, portant sur l'analyse des mouvements de marche et de bras.

Multi-camera system for human pose analysis

Système multi-caméras pour l'analyse de la posture humaine

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager