Unsupervised Video Indexing based on Audiovisual Characterization of Persons - TEL - Thèses en ligne Accéder directement au contenu
Thèse Année : 2010

Unsupervised Video Indexing based on Audiovisual Characterization of Persons

Indexation vidéo non-supervisée basée sur la caractérisation des personnes

Résumé

This thesis consists to propose a method for an unsupervised characterization of persons within audiovisual documents, by exploring the data related for their physical appearance and their voice. From a general manner, the automatic recognition methods, either in video or audio, need a huge amount of a priori knowledge about their content. In this work, the goal is to study the two modes in a correlated way and to explore their properties in a collaborative and robust way, in order to produce a reliable result as independent as possible from any a priori knowledge. More particularly, we have studied the characteristics of the audio stream and we have proposed many methods for speaker segmentation and clustering and that we have evaluated in a french competition. Then, we have carried a deep study on visual descriptors (face, clothing) that helped us to propose novel approches for detecting, tracking, and clustering of people within the document. Finally, the work was focused on the audiovisual fusion by proposing a method based on computing the cooccurrence matrix that allowed us to establish an association between audio and video indexes, and to correct them. That will enable us to produce a dynamic audiovisual model for each speaker.
Cette thèse consiste à proposer une méthode de caractérisation non-supervisée des intervenants dans les documents audiovisuels, en exploitant des données liées à leur apparence physique et à leur voix. De manière générale, les méthodes d'identification automatique, que ce soit en vidéo ou en audio, nécessitent une quantité importante de connaissances a priori sur le contenu. Dans ce travail, le but est d'étudier les deux modes de façon corrélée et d'exploiter leur propriété respective de manière collaborative et robuste, afin de produire un résultat fiable aussi indépendant que possible de toute connaissance a priori. Plus particulièrement, nous avons étudié les caractéristiques du flux audio et nous avons proposé plusieurs méthodes pour la segmentation et le regroupement en locuteurs que nous avons évaluées dans le cadre d'une campagne d'évaluation. Ensuite, nous avons mené une étude approfondie sur les descripteurs visuels (visage, costume) qui nous ont servis à proposer de nouvelles approches pour la détection, le suivi et le regroupement des personnes. Enfin, le travail s'est focalisé sur la fusion des données audio et vidéo en proposant une approche basée sur le calcul d'une matrice de cooccurrence qui nous a permis d'établir une association entre l'index audio et l'index vidéo et d'effectuer leur correction. Nous pouvons ainsi produire un modèle audiovisuel dynamique des intervenants.
Fichier principal
Vignette du fichier
TheseElie.pdf (22.74 Mo) Télécharger le fichier
Loading...

Dates et versions

tel-00515424 , version 1 (06-09-2010)
tel-00515424 , version 2 (06-09-2010)
tel-00515424 , version 3 (07-09-2010)

Identifiants

  • HAL Id : tel-00515424 , version 3

Citer

Elie El Khoury. Unsupervised Video Indexing based on Audiovisual Characterization of Persons. Human-Computer Interaction [cs.HC]. Université Paul Sabatier - Toulouse III, 2010. English. ⟨NNT : ⟩. ⟨tel-00515424v3⟩
250 Consultations
867 Téléchargements

Partager

Gmail Facebook X LinkedIn More