Apprentissage actif profond pour la reconnaissance visuelle à partir de peu d’exemples

Sébastien Deschamps

Résumé

Automatic image analysis has improved the exploitation of image sensors, with data coming from different sensors such as phone cameras, surveillance cameras, satellite imagers or even drones. Deep learning achieves excellent results in image analysis applications where large amounts of annotated data are available, but learning a new image classifier from scratch is a difficult task. Most image classification methods are supervised, requiring annotations, which is a significant investment. Different frugal learning solutions (with few annotated examples) exist, including transfer learning, active learning, semi-supervised learning or meta-learning. The goal of this thesis is to study these frugal learning solutions for visual recognition tasks, namely image classification and change detection in satellite images. The classifier is trained iteratively by starting with only a few annotated samples, and asking the user to annotate as little data as possible to obtain satisfactory performance. Deep active learning was initially studied with other methods and suited our operational problem the most, so we chose this solution. In this thesis, we have developed an interactive approach, where we ask the most informative questions about the relevance of the data to an oracle (annotator). Based on its answers, a decision function is iteratively updated. We model the probability that the samples are relevant, by minimizing an objective function capturing the representativeness, diversity and ambiguity of the data. Data with high probability are then selected for annotation. We have improved this approach, using reinforcement learning to dynamically and accurately weight the importance of representativeness, diversity and ambiguity of the data in each active learning cycle. Finally, our last approach consists of a display model that selects the most representative and diverse virtual examples, which adversely challenge the learned model, in order to obtain a highly discriminative model in subsequent iterations of active learning. The good results obtained against the different baselines and the state of the art in the tasks of satellite image change detection and image classification have demonstrated the relevance of the proposed frugal learning models, and have led to various publications (Sahbi et al. 2021; Deschamps and Sahbi 2022b; Deschamps and Sahbi 2022a; Sahbi and Deschamps2022).

L’analyse automatique d’images a permis d’améliorer l’exploitation des capteurs d’image, avec des données qui proviennent de différents capteurs tels que des caméras de téléphone, des caméras de surveillance, des imageurs satellites ou encore des drones. L’apprentissage profond obtient d’excellents résultats dans les applications d’analyse d’images où de grandes quantités de données annotées sont disponibles, mais apprendre un nouveau classifieur d’images à partir de zéro est une tâche difficile. La plupart des méthodes de classification d’images sont supervisées, nécessitant des annotations, ce qui représente un investissement important. Différentes solutions d’apprentissage frugal (avec peu d’exemples annotés) existent, notamment l’apprentissage par transfert, l’apprentissage actif, l’apprentissage semi-supervisé ou bien le méta-apprentissage. L’objectif de cette thèse est d’étudier ces solutions d’apprentissage frugal pour des tâches de reconnaissance visuelle, notamment la classification d’images et la détection des changements dans des images satellites. Ainsi, le classifieur est entraîné de façon itérative en commençant avec très peu de données, et en demandant à l’utilisateur d’annoter le moins possible de données pour obtenir des performances satisfaisantes. L’apprentissage actif profond a été étudié initialement avec d’autres méthodes et nous a semblé le plus adapté à notre problématique métier, nous avons donc privilégié cette solution. Nous avons développé dans cette thèse une première approche interactive, où nous posons les questions les plus informatives sur la pertinence des données à un oracle (annotateur). En fonction de ses réponses, une fonction de décision est mise à jour itérativement. Nous modélisons la probabilité que les échantillons soient pertinents, en minimisant une fonction objectif capturant la représentativité, la diversité et l’ambiguïté des données. Les données avec une probabilité élevée sont ensuite sélectionnées pour annotation. Nous avons fait évoluer cette approche, en utilisant l’apprentissage par renforcement pour pondérer dynamiquement et précisément l’importance de la représentativité, l’ambiguïté et la diversité des données à chaque cycle d’apprentissage actif. Finalement, notre dernière approche consiste en un modèle d’affichage qui sélectionne des exemples virtuels les plus représentatifs et divers, qui remettent en question le modèle appris, de sorte à obtenir un modèle très discriminatoire dans les itérations suivantes de l’apprentissage actif. Les bons résultats obtenus face aux différentes baselines et l’état de l’art, en détection de changements dans des images satellites et en classification d’images, ont permis de démontrer la pertinence des modèles d'apprentissage frugal proposés, et ont donné lieu à diverses publications (Sahbi et al. 2021 ; Deschamps et Sahbi 2022b ; Deschamps et Sahbi 2022a ; Sahbi et Deschamps 2022).

Deep Active Learning for Visual Recognition with Few Examples

Apprentissage actif profond pour la reconnaissance visuelle à partir de peu d’exemples

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager