Semi Supervised Active Learning with Explicit Mislabel Modeling: An Application to Material Design - TEL - Thèses en ligne Accéder directement au contenu
Thèse Année : 2023

Semi Supervised Active Learning with Explicit Mislabel Modeling: An Application to Material Design

Apprentissage Actif semi-supervisé avec la Modélisation Explicite de Mislabel : Application à la Conception de Matériaux

Résumé

Machine Learning predictive models have been applied to many fields and applications so far. The majority of these learning algorithms rely on labeled training data which may be expensive to obtain as they require labeling by an expert. Additionally, with the new storage capabilities, large amounts of unlabeled data exist in abundance. In this context, the development of new frameworks to learn efficient models from a small set of labeled data, together with a large amount of unlabeled data, is a crucial emphasis of the current research community. Achieving this goal would significantly elevate the state-of-the-art machine intelligence to be comparable to or surpass the human capability of learning to generalize concepts from very few labeled examples. Semi-supervised learning and active learning are two ongoing active research sub- domains that aim to achieve this goal. In this thesis, we investigate two directions in machine learning theory for semi- supervised and active learning. First, We are interested in the generalization proper- ties of a self-training algorithm using halfspaces with explicit mislabel modeling. We propose an iterative algorithm to learn a list of halfspaces from labeled and unlabeled training data, in which each iteration consists of two steps, exploration and pruning. We derive a generalization bound for the proposed algorithm under a Massart noise mislabeling model. Second, we propose a meta-approach for pool-based active learn- ing strategies in the context of multi-class classification tasks, which relies on the proposed concept of learning on Proper Topological Regions (PTR) with an under- lying smoothness assumption on the metric space. PTR allows the pool-based active learning strategies to obtain a better initial training set than random selection and increase the training sample size during the rounds while operating in a low-budget regime scenario. Experiments carried out on various benchmarks demonstrate the ef- ficiency of our proposed approaches for semi-supervised and active learning compared to state-of-the-art methods. A third contribution of the thesis concerns the development of practical deep- learning solutions in the challenging domain of Transmission Electron Microscopy (TEM) for material design. In the context of orientation microscopy, ML-based ap- proaches still need to catch up to traditional techniques, such as template matching or the Kikuchi technique, when it comes to generalization performance over unseen orientations and phases during training. This is due mainly to the limited experi- mental data about the studied phenomena for training the models. Nevertheless, it is a realistic and practical constraint, especially for narrow-domain applications where actual data are not widely available. Some successful attempts have been made to use unsupervised learning techniques to gain more insight into the data, but cluster- ing information does not solve the orientation microscopy problem. To this end, we propose a multi-task learning framework based on neural architecture search for fast automation of phase and orientation determination in TEM images.
Les modèles prédictifs d’apprentissage automatique ont été appliqués à de nombreux domaines et applications jusqu'à présent. La majorité de ces algorithmes d’apprentissage reposent sur des données d’apprentissage étiquetées qui peuvent être coûteuses à obtenir car elles nécessitent l’étiquetage par un expert. De plus, avec les nouvelles capacités de stockage, une grande quantité de données non étiquetées existe en abondance. Dans ce contexte, le développement de nouveaux cadres pour apprendre des modèles efficaces à partir d’un petit ensemble de données étiquetées, ainsi qu’une grande quantité de données non étiquetées est un accent crucial de la communauté de recherche actuelle. Atteindre cet objectif élèverait considérablement l’état de l’art de l’intelligence artificielle pour être comparable ou surpasser la capacité humaine sur comment apprendre à généraliser des concepts à partir de très peu d’exemples étiquetés. L’apprentissage semi-supervisé et l’apprentissage actif sont deux sous-domaines de recherche actifs en cours qui visent à atteindre cet objectif. Dans cette thèse, nous étudions deux directions de la théorie de l’apprentissage automatique pour l’apprentissage semi-supervisé et actif. Premièrement, nous nous intéressons aux propriétés de généralisation d’un algorithme d’auto-apprentissage utilisant des demi-espaces avec une modélisation explicite des erreurs d’étiquetage. Nous proposons un algorithme itératif pour apprendre une liste de demi-espaces à partir de données d’apprentissage étiquetées et non étiquetées, dans lequel chaque itération consiste en deux étapes, l’exploration et l’élagage. Nous dérivons une borne de généralisation pour l’algorithme proposé sous un modèle d’étiquetage de bruit de Massart. Deuxièmement, nous proposons une méta-approche pour les stratégies d’apprentissage actif basées sur des pools dans le contexte de tâches de classification multi-classes, qui s’appuie sur le concept proposé d’apprentissage sur les régions topologiques propres (RTP) avec une hypothèse sous-jacente de lissage sur l’espace métrique. Le TRP permet aux stratégies d’apprentissage actif basées sur le pool d’obtenir un meilleur ensemble d’entraînement initial que la sélection aléatoire et d’augmenter la taille de l’échantillon d’entraînement pendant les tours tout en fonctionnant dans un scénario de régime à petit budget. Des expérimentations menées sur différents benchmarks démontrent l’efficacité de nos approches proposées pour l’apprentissage semi-supervisé et actif par rapport aux méthodes de l’état de l’art. Une troisième contribution de la thèse concerne le développement de solutions pratiques d’apprentissage en profondeur dans le domaine difficile de la microscopie électronique `a transmission (TEM) pour la conception de matériaux. Dans le contexte de la microscopie d’orientation, les approches basées sur ML doivent encore rattraper les techniques traditionnelles, telles que l’appariement de modèles ou la technique de Kikuchi, en ce qui concerne les performances de généralisation sur des orientations et des phases inconnu lors de l’apprentissage. Cela est dû principalement au peu de données expérimentales sur les phénomènes étudiés pour l’entraînement des modèles. Néanmoins, il s’agit d’une contrainte réaliste et pratique, en particulier pour les applications à domaine étroit où les données réelles ne sont pas largement disponibles. Certaines tentatives réussies ont été faites pour utiliser des techniques d’apprentissage non supervisées pour mieux comprendre les données, mais le regroupement des informations ne résout pas le problème de la microscopie d’orientation. À cette fin, nous proposons un cadre d’apprentissage multi-tâches basé sur la recherche d’architecture neuronale pour l’automatisation rapide de la détermination de la phase et de l’orientation dans les images TEM.
Fichier principal
Vignette du fichier
111424_HADJADJ_2023_archivage.pdf (5.15 Mo) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)
Licence : Domaine public

Dates et versions

tel-04121467 , version 1 (07-06-2023)

Licence

Domaine public

Identifiants

  • HAL Id : tel-04121467 , version 1

Citer

Hadjadj Lies. Semi Supervised Active Learning with Explicit Mislabel Modeling: An Application to Material Design. Computer Science [cs]. Université Grenoble Alpes, 2023. English. ⟨NNT : ⟩. ⟨tel-04121467⟩

Collections

UGA
44 Consultations
61 Téléchargements

Partager

Gmail Facebook X LinkedIn More