Description de contenu vidéo : mouvements et élasticité temporelle

Résumé : La reconnaissance en vidéo atteint de meilleures performances ces dernières années, notamment grâce à l'amélioration des réseaux de neurones profonds sur les images. Pourtant l'explosion des taux de reconnaissance en images ne s'est pas directement répercuté sur les taux en reconnaissance vidéo. Cela est dû à cette dimension supplémentaire qu'est le temps et dont il est encore difficile d'extraire une description robuste. Les réseaux de neurones récurrents introduisent une temporalité mais ils ont une mémoire limitée dans le temps. Les méthodes de description vidéo de l'état de l'art gèrent généralement le temps comme une dimension spatiale supplémentaire et la combinaison de plusieurs méthodes de description vidéo apportent les meilleures performances actuelles. Or la dimension temporelle possède une élasticité propre, différente des dimensions spatiales. En effet, la dimension temporelle peut être déformée localement : une dilatation partielle provoquera un ralentissement visuel de la vidéo sans en changer la compréhension, à l'inverse d'une dilatation spatiale sur une image qui modifierait les proportions des objets. On peut donc espérer améliorer encore la classification de contenu vidéo par la conception d'une description invariante aux changements de vitesse. Cette thèse porte sur la problématique d'une description robuste de vidéo en considérant l'élasticité de la dimension temporelle sous trois angles différents. Dans un premier temps, nous avons décrit localement et explicitement les informations de mouvements. Des singularités sont détectées sur le flot optique, puis traquées et agrégées dans une chaîne pour décrire des portions de vidéos. Nous avons utilisé cette description sur du contenu sportif. Puis nous avons extrait des descriptions globales implicites grâce aux décompositions tensorielles. Les tenseurs permettent de considérer une vidéo comme un tableau de données multi-dimensionnelles. Les descriptions extraites sont évaluées dans une tache de classification. Pour finir, nous avons étudié les méthodes de normalisation de la dimension temporelle. Nous avons utilisé les méthodes de déformations temporelles dynamiques des séquences. Nous avons montré que cette normalisation aide à une meilleure classification.
Type de document :
Thèse
Vision par ordinateur et reconnaissance de formes [cs.CV]. Université Côte d'Azur, 2018. Français. 〈NNT : 2018AZUR4212〉
Liste complète des métadonnées

https://tel.archives-ouvertes.fr/tel-02010091
Contributeur : Abes Star <>
Soumis le : mercredi 6 février 2019 - 18:28:34
Dernière modification le : jeudi 7 février 2019 - 01:23:33

Fichier

2018AZUR4212.pdf
Version validée par le jury (STAR)

Identifiants

  • HAL Id : tel-02010091, version 1

Collections

Citation

Katy Blanc. Description de contenu vidéo : mouvements et élasticité temporelle. Vision par ordinateur et reconnaissance de formes [cs.CV]. Université Côte d'Azur, 2018. Français. 〈NNT : 2018AZUR4212〉. 〈tel-02010091〉

Partager

Métriques

Consultations de la notice

110

Téléchargements de fichiers

29