Structuration multimodale des vidéos de sport par modèles stochastiques - TEL - Thèses en ligne Accéder directement au contenu
Thèse Année : 2003

Structuration multimodale des vidéos de sport par modèles stochastiques

Ewa Kijak

Résumé

This thesis is concerned with the structure analysis of sports videos using both audio and visual cues. The proposed method relies on a statistical model which takes into account both the shot content and the interleaving of shots. This stochastic modeling is performed in the global framework of Hidden Markov Models (HMMs) that can be efficiently applied to integrate prior information about video content and editing rules, and to merge audio and visual cues. Visual features are used to characterize the type of shot view. Audio features describe the audio events within a video shot. Our approach is validated in the particular domain of tennis videos, that present a hierarchical, complex and well-defined structure. The video structure parsing relies on the analysis of the temporal interleaving of video shots. Typical tennis scenes are simultaneously segmented and identified. In addition, each shot is assigned to a level in the hierarchy described in terms of point, game and set. As a result, the overall structure is identified. This can be used for video abstracting non-linear browsing of the document.
Cette étude présente une méthode de structuration d'une vidéo utilisant des indices sonores et visuels. Cette méthode repose sur un modèle statistique de l'entrelacement temporel des plans de la vidéo. Le cadre général de la modélisation est celui des modèles de Markov cachés. Les indices visuels sont utilisés pour caractériser le type des plans. Les indices audio décrivent les événements sonores apparaissant durant un plan. La structure de la vidéo est représentée par un modèle de Markov caché hiérarchique, intégrant les informations a priori sur le contenu de la vidéo, ainsi que sur les règles d'édition. L'approche est validée dans le cadre des vidéos de tennis, ce dernier présentant une structure intrinsèque hiérarchique bien définie. En résultat de l'analyse de l'entrelacement temporel des différents types de plans, des scènes caractéristiques du tennis sont identifiées. De plus, chaque plan de la vidéo est assigné à un niveau de hiérarchie décrit en terme de point, jeu et set. Cette classification et segmentation simultanées de la structure globale de la vidéo peuvent être utilisées pour la création de résumés vidéo ou pour permettre une navigation non linéaire dans le document vidéo.
Fichier principal
Vignette du fichier
these_Ewa_Kijak.pdf (6.74 Mo) Télécharger le fichier

Dates et versions

tel-00532944 , version 1 (04-11-2010)

Identifiants

  • HAL Id : tel-00532944 , version 1

Citer

Ewa Kijak. Structuration multimodale des vidéos de sport par modèles stochastiques. Interface homme-machine [cs.HC]. Université Rennes 1, 2003. Français. ⟨NNT : ⟩. ⟨tel-00532944⟩
328 Consultations
575 Téléchargements

Partager

Gmail Facebook X LinkedIn More