Assessing and Efficiently Leveraging the Generalisation Abilities of Multimodal Models

Romain Bielawski

Résumé

As larger multimodal datasets are becoming available on the web, the possibility for better, more human-like multimodal models grows. My research goal is to evaluate what multimodality brings to machine representation of data, especially when it comes to generalizing in one or two modalities (image and/or text), as well as to find ways of improving the quality of the latent space of multimodal algorithms. Bigger datasets and larger computational power enable better algorithms to be developed, but in this project, I aim at using as little data as possible, with as few annotations as possible, to improve the multimodal representation of pretrained algorithms. There has been great progress in multimodal dataset availability, mostly due to the possibility of extracting information from big unstructured data on the web. The attention networks, originally designed for text only, have proven successful in their capacity for merging data. Most recently, the contrastive learning objective applied on hundreds of millions of annotated images has provided SOTA results. However, the standard methods and evaluations in the multimodal field have two shortcomings: The generalisation abilities of models trained multimodally are yet to be determined, and there is no computationally cheap way, both in terms of data and power, to improve or leverage the latent space abilities of these cost-expensive algorithm on a tasks such as image captioning In this thesis, the first shortcoming is addressed by our evaluation tasks, that can be applied to other networks in order to compare the generalisation ability of any image and/or text model. Part of the second issue is dealt with using our Latent CycleGAN, which is very cost-effective, and which improves a more straightfoward captioning pipeline with unmatched multimodal data.

À mesure que de plus grands ensembles de données multimodaux deviennent disponibles sur le Web, la possibilité de développer de meilleurs modèles multimodaux, plus humains, augmente. Mon objectif de recherche est d'évaluer ce que la multimodalité apporte à la représentation des données par les machines, notamment lorsqu'il s'agit de généraliser dans une ou deux modalités (image et/ou texte), ainsi que de trouver des moyens d'améliorer la qualité de l'espace latent des algorithmes mutlimodaux. De plus grands ensembles de données et une plus grande puissance de calcul permettent certes de développer de meilleurs algorithmes, mais dans ce projet, je vise à utiliser le moins de données possible, avec le moins d'annotations possible, pour améliorer la représentation multimodale d'algorithmes préentraînés. De grands progrès ont été faits en ce qui concerne la disponibilité des ensembles de données multimodaux, principalement en raison de la possibilité d'extraire des informations à partir de données volumineuses, non structurées, sur le Web. Les réseaux attentionnels, conçus à l'origine uniquement pour le texte, ont fait leurs preuves dans leur capacité à fusionner les données. Plus récemment, l'objectif d'apprentissage contrastif appliqué sur des centaines de millions d'images annotées a fourni des résultats SOTA. Cependant, les méthodes et les évaluations standards dans le domaine multimodal présentent deux lacunes : Les capacités de généralisation des modèles formés de manière multimodale restent à déterminer, et il n'existe aucun moyen de calcul bon marché, à la fois en termes de données et de puissance, pour améliorer ou exploiter les capacités des espaces latents de ces algorithmes sur des tâches telles que la description d'images. Dans cette thèse, la première lacune est abordée par nos tâches d'évaluation, qui peuvent être appliquées à d'autres réseaux afin de comparer la capacité de généralisation de n'importe quel modèle d'image et/ou de texte. Une partie du deuxième problème est traitée à l'aide de notre CycleGAN Latent (Latent CycleGAN), qui est très rentable et qui améliore une méthode de description plus simple avec des données multimodales non-appairées.

Assessing and Efficiently Leveraging the Generalisation Abilities of Multimodal Models

Evaluation et utilisation efficace des capacités de généralisation des modèles multimodaux

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager