Supervised Learning Approaches for Automatic Structuring of Videos

Danila Potapov 1
1 LEAR - Learning and recognition in vision
Inria Grenoble - Rhône-Alpes, LJK - Laboratoire Jean Kuntzmann, INPG - Institut National Polytechnique de Grenoble
Résumé : L'Interprétation automatique de vidéos est un horizon qui demeure difficile a atteindre en utilisant les approches actuelles de vision par ordinateur. Une des principales difficultés est d'aller au-delà des descripteurs visuels actuels (de même que pour les autres modalités, audio, textuelle, etc) pour pouvoir mettre en oeuvre des algorithmes qui permettraient de reconnaitre automatiquement des sections de vidéos, potentiellement longues, dont le contenu appartient à une certaine catégorie définie de manière sémantique. Un exemple d'une telle section de vidéo serait une séquence ou une personne serait en train de pêcher; un autre exemple serait une dispute entre le héros et le méchant dans un film d'action hollywoodien. Dans ce manuscrit, nous présentons plusieurs contributions qui vont dans le sens de cet objectif ambitieux, en nous concentrant sur trois tâches d'analyse de vidéos: le résumé automatique, la classification, la localisation temporelle.Tout d'abord, nous introduisons une approche pour le résumé automatique de vidéos, qui fournit un résumé de courte durée et informatif de vidéos pouvant être très longues, résumé qui est de plus adapté à la catégorie de vidéos considérée. Nous introduisons également une nouvelle base de vidéos pour l'évaluation de méthodes de résumé automatique, appelé MED-Summaries, ou chaque plan est annoté avec un score d'importance, ainsi qu'un ensemble de programmes informatiques pour le calcul des métriques d'évaluation.Deuxièmement, nous introduisons une nouvelle base de films de cinéma annotés, appelée Inria Action Movies, constitué de films d'action hollywoodiens, dont les plans sont annotés suivant des catégories sémantiques non-exclusives, dont la définition est suffisamment large pour couvrir l'ensemble du film. Un exemple de catégorie est "course-poursuite"; un autre exemple est "scène sentimentale". Nous proposons une approche pour localiser les sections de vidéos appartenant à chaque catégorie et apprendre les dépendances temporelles entre les occurrences de chaque catégorie.Troisièmement, nous décrivons les différentes versions du système développé pour la compétition de détection d'événement vidéo TRECVID Multimédia Event Detection, entre 2011 et 2014, en soulignant les composantes du système dont l'auteur du manuscrit était responsable.
Type de document :
Thèse
Computer Vision and Pattern Recognition [cs.CV]. Université Grenoble Alpes, 2015. English. 〈NNT : 2015GREAM023〉
Liste complète des métadonnées

Littérature citée [124 références]  Voir  Masquer  Télécharger

https://tel.archives-ouvertes.fr/tel-01238100
Contributeur : Abes Star <>
Soumis le : vendredi 4 décembre 2015 - 12:13:09
Dernière modification le : mardi 4 juillet 2017 - 13:10:26
Document(s) archivé(s) le : samedi 29 avril 2017 - 04:54:24

Fichier

POTAPOV_2015_archivage.pdf
Version validée par le jury (STAR)

Identifiants

  • HAL Id : tel-01238100, version 1

Collections

Citation

Danila Potapov. Supervised Learning Approaches for Automatic Structuring of Videos. Computer Vision and Pattern Recognition [cs.CV]. Université Grenoble Alpes, 2015. English. 〈NNT : 2015GREAM023〉. 〈tel-01238100〉

Partager

Métriques

Consultations de
la notice

937

Téléchargements du document

660