Learning from motion - TEL - Thèses en ligne Accéder directement au contenu
Thèse Année : 2018

Learning from motion

Apprentissage à partir du mouvement

Résumé

Weakly-supervised learning studies the problem of minimizing the amount of human effort required for training state-of-the-art models. This allows to leverage a large amount of data. However, in practice weakly-supervised methods perform significantly worse than their fully-supervised counterparts. This is also the case in deep learning, where the top-performing computer vision approaches remain fully-supervised, which limits their usage in real world applications. This thesis attempts to bridge the gap between weakly-supervised and fully-supervised methods by utilizing motion information. It also studies the problem of moving object segmentation itself, proposing one of the first learning-based methods for this task.We focus on the problem of weakly-supervised semantic segmentation. This is especially challenging due to the need to precisely capture object boundaries and avoid local optima, as for example segmenting the most discriminative parts. In contrast to most of the state-of-the-art approaches, which rely on static images, we leverage video data with object motion as a strong cue. In particular, our method uses a state-of-the-art video segmentation approach to segment moving objects in videos. The approximate object masks produced by this method are then fused with the semantic segmentation model learned in an EM-like framework to infer pixel-level semantic labels for video frames. Thus, as learning progresses, the quality of the labels improves automatically. We then integrate this architecture with our learning-based approach for video segmentation to obtain a fully trainable framework for weakly-supervised learning from videos.In the second part of the thesis we study unsupervised video segmentation, the task of segmenting all the objects in a video that move independently from the camera. This task presents challenges such as strong camera motion, inaccuracies in optical flow estimation and motion discontinuity. We address the camera motion problem by proposing a learning-based method for motion segmentation: a convolutional neural network that takes optical flow as input and is trained to segment objects that move independently from the camera. It is then extended with an appearance stream and a visual memory module to improve temporal continuity. The appearance stream capitalizes on the semantic information which is complementary to the motion information. The visual memory module is the key component of our approach: it combines the outputs of the motion and appearance streams and aggregates a spatio-temporal representation of the moving objects. The final segmentation is then produced based on this aggregated representation. The resulting approach obtains state-of-the-art performance on several benchmark datasets, outperforming the concurrent deep learning and heuristic-based methods.
L’apprentissage faiblement supervisé cherche à réduire au minimum l’effort humain requis pour entrainer les modèles de l’état de l’art. Cette technique permet de tirer parti d’une énorme quantité de données. Toutefois, dans la pratique, les méthodes faiblement supervisées sont nettement moins efficaces que celles qui sont totalement supervisées. Plus particulièrement, dans l’apprentissage profond, où les approches de vision par ordinateur sont les plus performantes, elles restent entièrement supervisées, ce qui limite leurs utilisations dans les applications du monde réel. Cette thèse tente tout d’abord de combler le fossé entre les méthodes faiblement supervisées et entièrement supervisées en utilisant l’information de mouvement. Puis étudie le problème de la segmentation des objets en mouvement, en proposant l’une des premières méthodes basées sur l’apprentissage pour cette tâche.Dans une première partie de la thèse, nous nous concentrons sur le problème de la segmentation sémantique faiblement supervisée. Le défi est de capturer de manières précises les bordures des objets et d’éviter les optimums locaux (ex : segmenter les parties les plus discriminantes). Contrairement à la plupart des approches de l’état de l’art, qui reposent sur des images statiques, nous utilisons les données vidéo avec le mouvement de l’objet comme informations importantes. Notre méthode utilise une approche de segmentation vidéo de l’état de l’art pour segmenter les objets en mouvement dans les vidéos. Les masques d’objets approximatifs produits par cette méthode sont ensuite fusionnés avec le modèle de segmentation sémantique appris dans un EM-like framework, afin d’inférer pour les trames vidéo, des labels sémantiques au niveau des pixels. Ainsi, au fur et à mesure que l’apprentissage progresse, la qualité des labels s’améliore automatiquement. Nous intégrons ensuite cette architecture à notre approche basée sur l’apprentissage pour la segmentation de la vidéo afin d’obtenir un framework d’apprentissage complet pour l’apprentissage faiblement supervisé à partir de vidéos.Dans la deuxième partie de la thèse, nous étudions la segmentation vidéo non supervisée, plus précisément comment segmenter tous les objets dans une vidéo qui se déplace indépendamment de la caméra. De nombreux défis tels qu’un grand mouvement de la caméra, des inexactitudes dans l’estimation du flux optique et la discontinuité du mouvement, complexifient la tâche de segmentation. Nous abordons le problème du mouvement de caméra en proposant une méthode basée sur l’apprentissage pour la segmentation du mouvement : un réseau de neurones convolutif qui prend le flux optique comme entrée et qui est entraîné pour segmenter les objets qui se déplacent indépendamment de la caméra. Il est ensuite étendu avec un flux d’apparence et un module de mémoire visuelle pour améliorer la continuité temporelle. Le flux d’apparence tire profit de l’information sémantique qui est complémentaire de l’information de mouvement. Le module de mémoire visuelle est un paramètre clé de notre approche : il combine les sorties des flux de mouvement et d’apparence et agréger une représentation spatio-temporelle des objets en mouvement. La segmentation finale est ensuite produite à partir de cette représentation agrégée. L’approche résultante obtient des performances de l’état de l’art sur plusieurs jeux de données de référence, surpassant la méthode d’apprentissage en profondeur et heuristique simultanée.
Fichier principal
Vignette du fichier
TOKMAKOV_2018_diffusion.pdf (85.14 Mo) Télécharger le fichier
Origine : Version validée par le jury (STAR)
Loading...

Dates et versions

tel-01908817 , version 1 (30-10-2018)

Identifiants

  • HAL Id : tel-01908817 , version 1

Citer

Pavel Tokmakov. Learning from motion. Computer Vision and Pattern Recognition [cs.CV]. Université Grenoble Alpes, 2018. English. ⟨NNT : 2018GREAM031⟩. ⟨tel-01908817⟩
579 Consultations
272 Téléchargements

Partager

Gmail Facebook X LinkedIn More