Modèle du corps humain pour le suivi de gestes en monoculaire - TEL - Thèses en ligne Accéder directement au contenu
Thèse Année : 2007

Human body model for monocular body tracking

Modèle du corps humain pour le suivi de gestes en monoculaire

Résumé

Human body pose estimation or tracking using computer vision is a difficult task owing to the high dimensionality of the pose space. Learning based aproachs, especially methods using embeding spaces such as LLE [RS00] or GPLVM [Law03] can cope with this di culty but are restricted to cyclic motions [UFF06]. Other methods proceed in comparing a test image to a learning base. Among them, PSH [SVD03] is usefull to speed up the selection of a subset of nearest neighbours from large learning bases. However, even when pose regression is used to extrapolate new poses from the learned ones, a su cient coverage of the pose space is diffi cult to reach with learning-based approaches [TSDD06]. Other ways consist in using deterministic or stochastic algorithms. The former kind of methods often provide suboptimal solutions because they get stuck on local minima owing to monocular vision ambiguities [PF03]. Stochastic approachs are used to explore the posterior probability function but once again, the high dimensionality of the pose space, especially in the case of simulation-based methods using sampling, requires a huge number of samples to explore the main mode. An interesting solution consists in using a loose-limbed body model [SBR+04] where the likelihood of each limb is evaluated independently. In this manner the dimension of the explored space is reduced to the number of dof of a limb. In uence between limbs is estimated by belief propagation [KFL01] to provide consistent body poses. This last solution is adopted in this thesis in association with particle ltering to provide a discrete space where the beliefs are computed [BCMC06]. This method is prefered to a parametric modelling of beliefs using Gibbs sampler, a method derived from the PAMPAS algorithm [Isa03] involving heavy computational load. However, in addition to this solution, robust human body tracking, even in two dimensions [NB07b], requires to use several images cues. Thus, hypotheses likelihood is evaluated from gradient and color based cues combined with a background subtraction [NB06] and a motion detection. A main diffi culty in monocular 3D tracking is the depth estimation making the fusioned images cues mentioned before unable to constrain suffi ciently the pose. However, owing to articulation constraints, the real pose space covered by human motion is much smaller than the theoretical one. Associating the fusioned images cues with articulation constraints implemented on the belief propagation step result in suitable algorithm performances even on unconstrained environments (light, clothes...) [NB07a]. A more effi cient occlusion handling is provided adding a learning-based hypotheses compatibility term. With the used body model [SBR+04], the learning base consists in limbs exemplars instead of full body poses permitting a wider coverage of the pose space with the same amount of exemplars. Belief propagation provides consistent body poses and the selection of similar limbs from the learning base can be speeded-up by PSH [SVD03].
L'estimation de la pose du corps humain ou son suivi grâce à la vision par ordinateur se heurte à la diffi culté d'explorer un espace de grande dimension. Les approches par apprentissage et particulièrement celles qui font appel aux régressions vers des espaces de dimension réduits comme les LLE [RS00] ou les GPLVM [Law03] permettent de résoudre cette diffi culté dans le cas de gestes cycliques [UFF06] sans parvenir à généraliser le suivi pour des poses quelconques. D'autres techniques procèdent directement par la comparaison de l'image test avec une base d'apprentissage. Dans cet esprit, le PSH [SVD03] permet d'identi fier rapidement un ensemble de poses similaires dans une grande base de données. Cependant, même en intégrant des techniques d'extrapolation qui permettent de générer d'autres poses à partir de celles apprises, les approches uniquement basées sur l'apprentissage ne parviennent généralement pas à couvrir de façon assez dense l'espace des poses [TSDD06]. D'autres voies consistent à mettre en oeuvre une méthode déterministe ou stochastique. Les méthodes déterministes [PF03] fournissent souvent une solution sous-optimale en restant piégées sur un optimum local du fait des ambiguïtés issues de la vision monoculaire. Les approches stochastiques tentent d'explorer la probabilité a posteriori mais là encore, la grande dimension de l'espace des poses, notamment dans le cas des méthodes à base de simulation par échantillonnage, exige de multiplier le nombre des tirages a n d'avoir une chance d'explorer le mode dominant. Une solution intéressante consiste à utiliser un modèle de corps à membres indépendants [SBR+04] pour restreindre l'exploration aux sous espaces dé nis par les paramètres de chacun des membres. L'infl uence d'un membre sur les autres s'exprime grâce à la propagation des croyances [KFL01] pour fournir une solution cohérente. Dans ce travail de thèse, cette dernière solution est retenue en l'associant au fi ltre à particules pour générer un espace discret où s'e ectue la propagation des croyances [BCMC06]. Ce procédé est préférable à la modélisation paramétrique des messages par un échantillonneur de Gibbs, un procédé coûteux en ressources dérivé de l'algorithme PAMPAS [Isa03]. Parallèlement à cette solution, le développement d'un suivi robuste du haut du corps, même en 2D [NB07b], exige une fusion de plusieurs indices extraits de l'image. La vraisemblance des hypothèses émises vis-à-vis de l'image est évaluée à partir d'indices tirés des gradients et de la couleur combinés avec une soustraction de fond [NB06] et une détection du mouvement. L'interprétation de la profondeur pour le passage en 3D constitue une di fficulté majeure du suivi monoculaire. La fusion d'indices évoquée précédemment devient insu sante pour contraindre la pose. Cependant, du fait des contraintes articulaires, l'espace réel des poses occupe un sous-espace très réduit dans l'espace théorique. Le codage de ces contraintes dans l'étape de propagation des croyances associé à la fusion d'indices permet alors d'aboutir à de bonnes performances, même dans les cas d'environnements non contraints (lumière, vêtements...) [NB07a]. Une meilleure gestion des occultations est mise en oeuvre en ajoutant un terme de compatibilité des hypothèses basé sur l'apprentissage. Avec le modèle utilisé [SBR+04], ce sont des membres indépendants plutôt que des poses complètes qui sont stockées dans la base d'apprentissage. Ceci permet d'obtenir une couverture satisfaisante de l'espace des poses avec un nombre raisonnable d'exemples appris. La propagation des croyances assure un assemblage cohérent des membres pour arriver au résultat et le processus de sélection des exemples dans la base peut-être accéléré grâce au PSH [SVD03].
Fichier principal
Vignette du fichier
these.pdf (6.11 Mo) Télécharger le fichier
Loading...

Dates et versions

tel-00807950 , version 1 (04-04-2013)

Identifiants

  • HAL Id : tel-00807950 , version 1

Citer

Philippe Noriega. Modèle du corps humain pour le suivi de gestes en monoculaire. Modélisation et simulation. Université Pierre et Marie Curie - Paris VI, 2007. Français. ⟨NNT : 2007PA066640⟩. ⟨tel-00807950⟩
388 Consultations
383 Téléchargements

Partager

Gmail Facebook X LinkedIn More