Convolutional neural networks: towards less supervision for visual recognition - TEL - Thèses en ligne Accéder directement au contenu
Thèse Année : 2018

Convolutional neural networks: towards less supervision for visual recognition

Réseaux de neurones à convolution: vers moins de supervision pour la reconnaissance visuelle

Résumé

This thesis investigates convolutional neural networks for visual recognition. Recent convolutional neural networks have demonstrated excellent performance for a variety of recognition tasks but typically require large amounts of manually annotated training data to perform well. This data is often costly to annotate and may introduce unwanted biases. In this thesis we investigate different ways how to reduce the amount and complexity of required training supervision. In our first contribution, we propose a transfer learning approach with a convolutional neural network for object classification. We first learn mid-level features on the large ImageNet dataset during a pre-training phase, then we use the parameters to initialize another network designed for a smaller-scale task, where less training data is available. We show, first, that the image representations can be efficiently transferred to other visual recognition tasks, and second, that these representations lead to higher performance when more data is used for pre-training. We demonstratethat the proposed approach outperforms state-of-the-art on the Pascal VOC image classification task. In our second contribution, we investigate weakly supervised learning for object recognition. We use the fact that for classification, convolutional neural networks tend to take decisions based on the most distinctive parts of objects. This allows us to build a network that can predict the location of objects, based on a weakly annotated dataset indicating only the presence or absence of objects but not their location in images. We demonstrate that our approach improves the state-of-theart on the Pascal VOC image classification task, performing on par with methods requiring full object-level supervision. In our third contribution, we look at possible paths for progress in unsupervised learning with neural networks. We study the recent Generative Adversarial Networks; these architectures learn distributions of images and generate new samples, but the evaluation which learned model is better than others is difficult. We propose a twosample test method for this evaluation problem, allowing us to perform a first level of model selection. We investigate possible links between Generative Adversarial Networks and concepts related to causality, and propose a two-sample test method for the task of causal discovery, outperforming the state of the art. Finally, building on a recent connection with optimal transport, we investigate what these generative algorithms are learning from unlabeled data.
Dans cette thèse nous étudions les réseaux de neurones à convolution dans les systèmes de reconnaissance visuelle. Les réseaux de neurones à convolution récents ont d’excellentes performances pour une grande variété de tâches de reconnaissance, mais requièrent une grande quantité de données d’entraînement, annotées manuellement, pour révéler leur potentiel. Obtenir des données est une opération souvent coûteuse, et qui peut introduire des biais. Dans cette thèse nous étudions différentes manières de réduire la quantité et la compléxité de la supervision. Notre première contribution est une méthode de transfert d’apprentissage dans les réseaux à convolution pour la classification d’image. Nous apprenons des représentations intermédiaires sur la base de données ImageNet pendant une phase de préentraînement, puis utilisons les paramètres appris pour initialiser un réseau concu pour une autre tâche avec moins de données. Nous montrons d’abord que ces représentations sont assez générales pour etre utilisées sur d’autres tâches, et meilleures lorsque le pré-entraînement est réalisé avec plus de données. Ceci nous a permis d’améliorer l’état de l’art en classification d’image sur la base de données Pascal VOC. Notre deuxième contribution est une approche faiblement supervisé, tirant parti du fait que les réseaux à convolution prennent, pour la classification, des décisions basées sur les parties les plus informatives des objets. Ceci nous a permis de créer un système pouvant predire la localisation des objets en utilisant lors de l’entraînement, seulement l’indication de la présence ou l’absence des objets dans les images, et non leur position. Nous montrons que ce système améliore l’état de l’art en classification d’image sur Pascal VOC, avec des résultats comparables à ceux des systémes disposant de la position des objects. Dans notre troisième contribution, nous cherchons des pistes de progression en apprentissage non-supervisé. Nous étudions l’algorithme récent des réseaux génératifs adversariaux; ces architectures apprennent des distributions d’images et génèrent de nouveaux exemples, mais l’évaluation d’un modèle appris est difficile. Nous proposons d’utiliser un test statistique pour ce problème, qui permet un premier filtrage des modèles. Nous étudions ensuite le problème de la causalité avec des réseaux génératifs, et proposons d’utiliser un test statistique pour la découverte causale. Finalement, grâce a un lien établi récemment avec les problèmes de transport optimal,nous étudions ce que ces réseaux apprennent des données dans le cas non-supervisé.
Fichier principal
Vignette du fichier
Oquab PhD Thesis.pdf (73.84 Mo) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)

Dates et versions

tel-01803967 , version 1 (31-05-2018)
tel-01803967 , version 2 (26-02-2020)

Identifiants

  • HAL Id : tel-01803967 , version 1

Citer

Maxime Oquab. Convolutional neural networks: towards less supervision for visual recognition. Computer Science [cs]. Ecole Normale Supérieure (ENS); ED 386 : École doctorale de sciences mathématiques de Paris centre, UPMC, 2018. English. ⟨NNT : ⟩. ⟨tel-01803967v1⟩
1130 Consultations
325 Téléchargements

Partager

Gmail Facebook X LinkedIn More