Learning distributed representations of sentences using neural networks

Alexis Conneau

Résumé

Being able to learn generic representations of objects such as images, words or sentences is essential to building machines that have a broad understanding of the world. Through transfer learning, neural networks can learn representations from high-resource tasks and then leverage these to improve performance on low- resource task. While transfer learning has been very successful for transferring image features learned on ImageNet to low-resource visual understanding tasks, generic representations of text using neural networks were mostly limited to word embeddings. This dissertation presents a full study of sentence embeddings, through which I discuss how I have pushed the state of the art in monolingual and cross-lingual general-purpose embeddings. The first contributions of this thesis include SentEval, a transfer learning evaluation toolkit for universal sentence embeddings, InferSent, a state-of-the-art generic sentence encoder, and probing tasks, through which sentence encoders are analyzed and probed for linguistic properties. We show in this first part that generic representations of sentence can be built and that they provide powerful out-of-the-box features of sentences. In the second part of my PhDs, my contributions have been centered around aligning distributions of words and sentences, in many languages. I show for the first time that it is possible to build generic cross-lingual word and sentence embedding spaces in a completely unsupervised way, without any parallel data. In particular, we show that we can perform word translation without parallel data, which was the building block for the new research field of "unsupervised machine translation". My last contribution on cross-lingual language modeling shows that state-of-the-art sentence representations can be aligned in a completely unsupervised way, leading to a new state of the art on supervised and unsupervised machine translation, and on the zero-shot crosslingual classification benchmarked called "XNLI".

La capacité d'apprendre des représentations génériques d'objets tels que des images, des mots ou des phrases est essentielle pour construire des algorithmes qui ont une compréhension élargie du monde. Grâce à l'apprentissage par transfert, les réseaux neuronaux peuvent apprendre des représentations d’objets comme des images à partir de gros jeux de données, puis les exploiter pour améliorer la performance des tâches à faibles ressources. Bien que l'apprentissage par transfert ait été très efficace pour transférer les représentations d'images apprises sur ImageNet à des tâches de vision à faibles ressources, les représentations génériques de texte à l'aide de réseaux neuronaux se sont limitées aux représentations de mots. Cette thèse présente une étude des représentations de phrases. J’y présente comment l’on a poussé l'état de l'art des embeddings monolingues et cross-lingues. Les premières contributions de cette thèse incluent SentEval, un outil d'évaluation et d’analyse des représentations de phrases universelles et InferSent, un encodeur de phrases générique. Nous montrons dans cette première partie que des représentations génériques de phrase peuvent être construites via des réseaux de neurones et qu'elles fournissent des caractéristiques («features») puissantes de phrases, utilisables dans de nombreux contextes. Dans la deuxième partie de ma thèse, mes contributions traitent de l'alignement de distributions de mots et de phrases dans plusieurs langues. Je montre pour la première fois qu'il est possible d’aligner des espaces de mots et de phrases de manière totalement non supervisée, sans aucune données parallèles. En particulier, nous montrons que nous pouvons traduire des mots de manière non supervisée, ce qui a été la pierre angulaire du nouveau domaine de recherche de "traduction automatique non supervisée". Ma dernière contribution sur la modélisation multilingue montre que les représentations de phrases provenant des modèles de langues peuvent être alignées de manière totalement non supervisée, ce qui conduit à un nouvel état de l'art en traduction automatique supervisée et non supervisée, et en classification cross-lingue.

Learning distributed representations of sentences using neural networks

Apprentissage et applications de représentations multilingues distribuées

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager