How to train your global workspace? Evaluating and efficiently learning multimodal representations

Benjamin Devillers

Résumé

When learning about the world, inputs can come in all sorts of ways: images when we look around, text describing objects and their properties, audio during conversations, etc. Most of these inputs are not annotated, and come together asynchronously to build a joint representation of the external world. With the recent advent of contrastive learning, state-of-the-art multimodal models heavily rely on the natural occurrence of synchronous data online: social media, Wikipedia, discussion websites, art communities, news website, etc., have users posting multimodal publications with, in particular, text and image content. This data is produced by humans, for humans, who are assumed to have prior knowledge to understand the publications (for example, slang vocabulary, references to history and current events, pop culture, or inside knowledge of specialized communities). With recent breakthroughs in the way computing chips are built and used, very large models have left the world astonished with their abilities. Besides, their full potential is not fully known, and many evaluations and analysis will be required to discover all their aptitudes. While these models solely rely on the availability of online annotation, unlabeled datasets are readily available in all shapes and forms (image, video, sound, text, etc.), and could be used as an additional source of information. In parallel, neuroscientists have been studying the brain for several decades, and cognitive theories backed by experimental studies, are a precious source of inspiration for artificial intelligence research. In particular, Baars' theory of the Global Workspace, has gained popularity recently, and provides hindsight on a multimodal integration framework. In this thesis, we will first introduce the basis of multimodal learning, then we will focus on already existing multimodal networks, and see how they compare to unimodal networks in terms of generalization. In light of these results, we will take inspiration from the Global Workspace cognitive theory to design a semi-supervised multimodal learning framework, which requires fewer annotations than previous frameworks for an equivalent performance.

Lors de l'apprentissage du monde, les entrées peuvent prendre toutes sortes de formes : images lorsque nous regardons autour de nous, texte décrivant des objets et leurs propriétés, sons lors de conversations, etc. La plupart de ces entrées ne sont pas annotées et se rejoignent de manière asynchrone pour construire une représentation commune du monde extérieur. Avec l'avènement récent de l'apprentissage contrastif, les modèles multimodaux de pointe s'appuient fortement sur l'occurrence naturelle de données synchrones en ligne : médias sociaux, Wikipédia, sites de discussion, communautés artistiques, site d'actualités, etc., où les utilisateurs peuvent publient des publications multimodales avec notamment du texte et des images. Ces données sont produites par des humains, pour des humains, supposés avoir des connaissances préalables pour comprendre les publications (par exemple, vocabulaire argotique, références à l'histoire et à l'actualité, culture générale, ou connaissance interne de communautés spécialisées). Avec les récentes percées dans la façon dont les puces informatiques spécialisées dans l'optimisation (GPU, TPU...) sont construites et utilisées, de très gros modèles ont laissé le monde étonné par leurs capacités. De plus, leur plein potentiel n'est pas totalement connu et de nombreuses évaluations et analyses seront nécessaires pour découvrir toutes leurs aptitudes. Alors que ces modèles reposent uniquement sur la disponibilité d'annotations en ligne, les données non annotées sont facilement disponibles sous toutes les formes (image, vidéo, son, texte, etc.) et pourraient être utilisés comme source d'information supplémentaire. En parallèle, les neuroscientifiques étudient le cerveau depuis plusieurs décennies, et les théories cognitives, justifiées par des études expérimentales, sont une précieuse source d'inspiration pour la recherche en intelligence artificielle. En particulier, la théorie de Bernard Baars sur l'espace de travail global a récemment gagné en popularité et donné un aperçu d'une méthode d'intégration multimodal. Dans cette thèse, nous présenterons d'abord les bases de l'apprentissage multimodal, puis nous nous concentrerons sur les réseaux multimodaux déjà existants, et verrons comment ils se comparent aux réseaux unimodaux en termes de généralisation. À la lumière de ces résultats, nous nous inspirerons de la théorie cognitive Global Workspace pour concevoir une méthode d'apprentissage multimodal semi-supervisé, qui nécessite moins d'annotations que les méthodes précédentes tout en donnant des performances équivalentes.

How to train your global workspace? Evaluating and efficiently learning multimodal representations

Comment apprendre son espace de travail global ? Évaluer et apprendre efficacement des représentations multimodales

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager