On inductive biases for machine learning in data constrained settings

Grégoire Mialon

Résumé

Learning with limited data is one of the biggest problems of deep learning. Current, popular approaches to this issueconsist in training models on huge amounts of data, labelled or not, before re-training the model on a smaller dataset ofinterest from the same modality. Intuitively, this technique allows the model to learn a general representation for somekind of data first, such as images. Then, fewer data should be required to learn a specific task for this particular modality.While this approach coined as "transfer learning" is very effective in domains such as computer vision or natural languageprocessing, it does not solve common problems of deep learning such as model interpretability or the overall need fordata. This thesis explores a different answer to the problem of learning expressive models in data constrained settings.Instead of relying on big datasets to learn the parameters of a neural network, we will replace some of them by knownfunctions reflecting the structure of the data. Very often, these functions will be drawn from the rich literature of kernelmethods. Indeed, many kernels can be interpreted, and/or allow for learning with few data. Our approach falls under thehood of "inductive biases", which can be defined as hypothesis on the data at hand restricting the space of models toexplore during learning. In the first two chapters of the thesis, we demonstrate the effectiveness of this approach in thecontext of sequences, such as sentences in natural language or protein sequences, and graphs, such as molecules. Wealso highlight the relationship between our work and recent advances in deep learning. The last chapter of this thesisfocuses on convex machine learning models. Here, rather than proposing new models, we wonder which proportion ofthe samples in a dataset is really needed to learn a "good" model. More precisely, we study the problem of safe samplescreening, i.e, executing simple tests to discard uninformative samples from a dataset even before fitting a machinelearning model, without affecting the optimal model. Such techniques can be used to compress datasets or mine for raresamples.

Apprendre à partir de données limitées est l’un des plus gros problèmes du deep learning. Les approches courantes et populaires de cette question consistent à entraîner un modèle sur d’énormes quantités de données, étiquetées ou non, avant de réentraîner le modèle sur un ensemble de données d’intérêt, plus petit, appartenant à la même modalité. Intuitivement, cette technique permet au modèle d’apprendre d’abord une représentation générale pour un certain type de données, telles que des images. Moins de données seront ensuite nécessaires pour apprendre une tâche spécifique pour cette modalité particulière. Bien que cette approche appelée « apprentissage par transfert » soit très efficace dans des domaines tels que la vision par ordinateur ou le traitement du langage naturel, elle ne résout pas les problèmes courants du deep learning tels que l’interprétabilité des modèles ou le besoin global en données. Cette thèse explore une réponse différente au problème de l’apprentissage de modèles expressifs dans des contextes où les données sont plus rares. Au lieu de s’appuyer sur de grands ensembles de données pour apprendre les paramètres d’un réseau de neurones, nous remplacerons certains de ces paramètres par des fonctions mathématiques connues reflétant la structure des données. Très souvent, ces fonctions seront puisées dans la riche littérature des méthodes à noyau. En effet, de nombreux noyaux peuvent être interprétés, et/ou permettre un apprentissage avec peu de données. Notre approche s’inscrit dans le cadre des « biais inductifs », qui peuvent être définis comme des hypothèses sur les données disponibles restreignant l’espace des modèles à explorer lors de l’apprentissage. Dans les deux premiers chapitres de la thèse, nous démontrons l’efficacité de cette approche dans le cadre de séquences, telles que des phrases en langage naturel ou des séquences protéiques, et de graphes, tels que des molécules. Nous soulignons également la relation entre notre travail et les progrès récents du deep learning. Le dernier chapitre de cette thèse se concentre sur les modèles d’apprentissage automatique convexes. Ici, plutôt que de proposer de nouveaux modèles, nous nous demandons quelle proportion des échantillons d’un jeu de données est vraiment nécessaire pour apprendre un « bon » modèle. Plus précisément, nous étudions le problème du filtrage sûr des échantillons, c’est-à-dire l’exécution de tests simples afin d’éliminer les échantillons non informatifs d’un ensemble de données avant même d’entraîner un modèle d’apprentissage automatique, sans affecter le modèle optimal. De telles techniques peuvent être utilisées pour compresser des jeux de données ou extraire des échantillons rares.

On inductive biases for machine learning in data constrained settings

Biais inductifs pour l'apprentissage automatique dans un contexte où les données sont limitées

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager