Conjugate Mixture Models for the Modeling of Visual and Auditory Perception

Vasil Khalidov 1
1 MISTIS - Modelling and Inference of Complex and Structured Stochastic Systems
Inria Grenoble - Rhône-Alpes, LJK - Laboratoire Jean Kuntzmann, INPG - Institut National Polytechnique de Grenoble
Résumé : Dans cette thèse, nous nous intéressons à la modélisation de la perception audio-visuelle avec une tête robotique. Les problèmes associés, notamment la calibration audio-visuelle, la détection, la localisation et le suivi d'objets audio-visuels sont étudiés. Une approche spatio-temporelle de calibration d'une tête robotique est proposée, basée sur une mise en correspondance probabiliste multimodale des trajectoires. Le formalisme de modèles de mélange conjugué est introduit ainsi qu'une famille d'algorithmes d'optimisation efficaces pour effectuer le regroupement multimodal. Un cas particulier de cette famille d'algorithmes, notamment l'algorithme EM conjugue, est amélioré pour obtenir des propriétés théoriques intéressantes. Des méthodes de détection d'objets multimodaux et d'estimation du nombre d'objets sont développées et leurs propriétés théoriques sont étudiées. Enfin, la méthode de regroupement multimodal proposée est combinée avec des stratégies de détection et d'estimation du nombre d'objets ainsi qu'avec des techniques de suivi pour effectuer le suivi multimodal de plusieurs objets. La performance des méthodes est démontrée sur des données simulées et réelles issues d'une base de données de scénarios audio-visuels réalistes (base de données CAVA).
Type de document :
Thèse
Human-Computer Interaction [cs.HC]. Université Joseph-Fourier - Grenoble I, 2010. English
Liste complète des métadonnées

https://tel.archives-ouvertes.fr/tel-00584080
Contributeur : Team Perception <>
Soumis le : mercredi 12 décembre 2012 - 16:34:10
Dernière modification le : jeudi 13 décembre 2012 - 11:22:18
Document(s) archivé(s) le : mercredi 13 mars 2013 - 03:54:17

Identifiants

  • HAL Id : tel-00584080, version 2

Collections

Citation

Vasil Khalidov. Conjugate Mixture Models for the Modeling of Visual and Auditory Perception. Human-Computer Interaction [cs.HC]. Université Joseph-Fourier - Grenoble I, 2010. English. <tel-00584080v2>

Partager

Métriques

Consultations de
la notice

221

Téléchargements du document

549