Skip to Main content Skip to Navigation
Theses

Description de contenu vidéo : mouvements et élasticité temporelle

Résumé : La reconnaissance en vidéo atteint de meilleures performances ces dernières années, notamment grâce à l'amélioration des réseaux de neurones profonds sur les images. Pourtant l'explosion des taux de reconnaissance en images ne s'est pas directement répercuté sur les taux en reconnaissance vidéo. Cela est dû à cette dimension supplémentaire qu'est le temps et dont il est encore difficile d'extraire une description robuste. Les réseaux de neurones récurrents introduisent une temporalité mais ils ont une mémoire limitée dans le temps. Les méthodes de description vidéo de l'état de l'art gèrent généralement le temps comme une dimension spatiale supplémentaire et la combinaison de plusieurs méthodes de description vidéo apportent les meilleures performances actuelles. Or la dimension temporelle possède une élasticité propre, différente des dimensions spatiales. En effet, la dimension temporelle peut être déformée localement : une dilatation partielle provoquera un ralentissement visuel de la vidéo sans en changer la compréhension, à l'inverse d'une dilatation spatiale sur une image qui modifierait les proportions des objets. On peut donc espérer améliorer encore la classification de contenu vidéo par la conception d'une description invariante aux changements de vitesse. Cette thèse porte sur la problématique d'une description robuste de vidéo en considérant l'élasticité de la dimension temporelle sous trois angles différents. Dans un premier temps, nous avons décrit localement et explicitement les informations de mouvements. Des singularités sont détectées sur le flot optique, puis traquées et agrégées dans une chaîne pour décrire des portions de vidéos. Nous avons utilisé cette description sur du contenu sportif. Puis nous avons extrait des descriptions globales implicites grâce aux décompositions tensorielles. Les tenseurs permettent de considérer une vidéo comme un tableau de données multi-dimensionnelles. Les descriptions extraites sont évaluées dans une tache de classification. Pour finir, nous avons étudié les méthodes de normalisation de la dimension temporelle. Nous avons utilisé les méthodes de déformations temporelles dynamiques des séquences. Nous avons montré que cette normalisation aide à une meilleure classification.
Complete list of metadatas

Cited literature [127 references]  Display  Hide  Download

https://tel.archives-ouvertes.fr/tel-02010091
Contributor : Abes Star :  Contact
Submitted on : Wednesday, February 6, 2019 - 6:28:34 PM
Last modification on : Tuesday, May 26, 2020 - 6:50:56 PM
Document(s) archivé(s) le : Tuesday, May 7, 2019 - 3:13:00 PM

File

2018AZUR4212.pdf
Version validated by the jury (STAR)

Identifiers

  • HAL Id : tel-02010091, version 1

Collections

Citation

Katy Blanc. Description de contenu vidéo : mouvements et élasticité temporelle. Vision par ordinateur et reconnaissance de formes [cs.CV]. Université Côte d'Azur, 2018. Français. ⟨NNT : 2018AZUR4212⟩. ⟨tel-02010091⟩

Share

Metrics

Record views

324

Files downloads

235