Unsupervised learning for motion segmentation and motion saliency in videos - TEL - Thèses en ligne Accéder directement au contenu
Thèse Année : 2023

Unsupervised learning for motion segmentation and motion saliency in videos

Apprentissage non supervisé pour la segmentation et la saillance du mouvement dans des vidéos

Résumé

The contributions of this thesis are two-fold. First, we deal with deep learning approaches for fully unsupervised motion segmentation from an optical flow field. We leverage a loss function based on the EM algorithm and involving parametric motion models. We then gradually extend this framework to longer sequences of input flows. With a triplet of input flows, we introduce a loss term enforcing consistent labels within the triplet, and we add long-term temporal consistency with a specific post-processing. Then, we take longer flow sequences as input, and define a spline-based motion representation to handle the evolution of parametric motion over a long time period. In addition, we rely on a transformer decoder to allow interactions between features of the full sequence. These methods provide competitive results on benchmarks, while being very efficient at test time. The second contribution is the localization of salient motions from the optic flow field. In this part, we assume that salients areas are those that influence the output of a pre-trained saliency classification network. We use a gradientbased network interpretation method to localize salient areas. We also design an alternative adversarial approach. We apply both methods on two motion saliency tasks.
Les contributions de cette thèse sont de deux ordres. Premièrement, nous avons développé une approche non supervisée d’apprentissage profond pour la segmentation du mouvement à partir du flot optique. Nous avons construit à partir de l’algorithme EM une fonction de perte qui implique des modèles de mouvement paramétriques. Nous avons progressivement ajouté de la cohérence temporelle à cette méthode. Avec un triplet de flots en entrée, nous ajoutons un terme de perte imposant des étiquettes cohérentes au sein du triplet. Ensuite, avec des séquences de flot plus longues en entrée, nous définissons une représentation plus fexible du mouvement par splines, et nous nous appuyons sur un transformer pour appréhender des interactions à long terme entre les caractéristiques. Ces méthodes fournissent des résultats compétitifs sur les benchmarks, tout en étant très efficaces en inférence. La deuxième contribution porte sur la localisation des mouvements saillants à partir du flot optique. Nous supposons que les zones saillantes sont celles qui influencent la prédiction d’un réseau pré-entraîné de classification de saillance. Nous exploitons une méthode d’interprétation du réseau de type gradient pour localiser les zones saillantes. Nous avons également conçu une approche alternative par réseau adverse. Nous avons appliqué ces deux méthodes à deux tâches de saillance du mouvement.
Fichier principal
Vignette du fichier
Phd_Manuscript_160224.pdf (91.17 Mo) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)

Dates et versions

tel-04389253 , version 1 (18-02-2024)

Licence

Paternité

Identifiants

  • HAL Id : tel-04389253 , version 1

Citer

Etienne Meunier. Unsupervised learning for motion segmentation and motion saliency in videos. Computer Science [cs]. Université de rennes, 2023. English. ⟨NNT : ⟩. ⟨tel-04389253⟩
35 Consultations
5 Téléchargements

Partager

Gmail Facebook X LinkedIn More