Extraction multimodale de métadonnées de séquences video dans un cadre bayésien - TEL - Thèses en ligne Access content directly
Theses Year : 2010

Multimodal extraction of metadata from video streams in a Bayesian framework

Extraction multimodale de métadonnées de séquences video dans un cadre bayésien

Abstract

The description of multimedia contents
Le domaine de la description de contenus multimédias est un domaine relativement récent qui a pris une grand importance dans la monde industriel et celui de la recherche, vu l'augmentation considérable de la production de contenus. Un besoin grandissant de systèmes capables de fournir une description sémantique est plus que jamais à l'ordre du jour. Dans ce domaine, les réseaux bayésiens ont été largement utilisés pour modéliser les données vidéos, afin d'en extraire des métadonnées sémantiques. Toutefois, les systèmes basés sur les réseaux bayésiens nécessitent qu'on fixe préalablement leur structure. Cette opération se fait, généralement, soit en utilisant des connaissances a priori, ce qui résulte en un système peu généralisable, soit en utilisant l'hypothèse d'indépendance des flux de données, ce qui résulte en un système peu optimal. Motivés par la nécessité de fournir des systèmes génériques capables de s'adapter à la grande diversité des applications envisageables, nous utilisons l'apprentissage de structure pour construire automatique le réseau bayésien. En apprenant la structure automatiquement à partir d'une base de données, nous n'avons plus besoin de connaissances externes ou de faire des suppositions, souvent peu réalistes, pour la mise en place de la structure du réseau bayésien utilisé. Différentes techniques d'apprentissage de structure ont été utilisés. Nous concluons à la nécessité d'adapter l'apprentissage de structure dans les réseau bayésiens statiques et dynamiques à la classification. En associant Apprentissage de structure et sélection d'attributs, nous obtenons un cadre permettant de construire automatiquement des systèmes de descriptions de contenus sans être dépendants de connaissances externes.
Fichier principal
Vignette du fichier
vf_these.pdf (1.98 Mo) Télécharger le fichier

Dates and versions

tel-00512706 , version 1 (31-08-2010)

Identifiers

  • HAL Id : tel-00512706 , version 1

Cite

Siwar Baghdadi. Extraction multimodale de métadonnées de séquences video dans un cadre bayésien. Interface homme-machine [cs.HC]. Université Rennes 1, 2010. Français. ⟨NNT : ⟩. ⟨tel-00512706⟩
234 View
321 Download

Share

Gmail Facebook X LinkedIn More