Word Meaning Representation in Neural Language Models : Lexical Polysemy and Semantic Relationships - TEL - Thèses en ligne Accéder directement au contenu
Thèse Année : 2021

Word Meaning Representation in Neural Language Models : Lexical Polysemy and Semantic Relationships

Représentation du sens des mots dans les modèles de langue neuronaux : polysémie lexicale et relations sémantiques

Résumé

Word embedding representations generated by neural language models encode rich information about language and the world. In this thesis, we investigate the knowledge about word meaning encoded in embedding representations and propose methods to automatically enhance their quality. Our main focus is on contextual models which generate representations that capture the meaning of word usages in new contexts. These models have dominated the NLP and Computational Linguistics fields and open exciting new possibilities for lexical semantics research. The central axis of our research is the exploration of the knowledge about lexical polysemy encoded in word embedding models. We access this knowledge through usage similarity experiments and automatic substitute annotations assigned by the models to words in context. We study the representations produced by the models in their raw form, and explore the impact that their enrichment with external semantic knowledge has on their quality. We evaluate the representations intrinsically on the tasks of usage similarity estimation, word sense clusterability and polysemy level prediction. Additionally, we employ contextualised representations for detecting words’ semantic relationships, specifically addressing the relative intensity of scalar adjectives. Adopting an interpretation stance, we investigate the knowledge that the models encode about noun properties as expressed in their adjectival modifiers, and the entailment properties of adjective-noun constructions. Our experiments involve a wide range of contextualised models which we compare to models that produce static word representations. The majority of our analyses address English but we also test our assumptions and methodology in a multilingual setting which involves monolingual and multilingual models in other languages. Our results demonstrate that contextualised representations encode rich knowledge about word meaning and semantic relationships acquired during model training and further enriched with information from new contexts of use. We also find that the constructed semantic space encodes abstract semantic notions, such as the notion of adjective intensity, which can be useful for intrinsic lexical semantic analysis and in downstream applications. Our proposed methodology can be useful for exploring other intrinsic semantic properties of words and their semantic relationships in different languages, leading to a better understanding of the knowledge about language encoded in neural language models.
Les plongements de mots générés par les modèles de langue neuronaux encodent des informations riches sur la langue et le monde. Dans cette thèse, nous étudions les connaissances sur le sens des mots encodées dans ces plongements lexicaux et proposons des méthodes automatiques pour en améliorer la qualité. Nous nous concentrons principalement sur les modèles contextuels qui génèrent des représentations capturant le sens d'occurrences de mots en contexte. Ces modèles ont dominé les domaines du Traitement Automatique des Langues (TAL) et de la linguistique computationnelle, et ouvrent de nouvelles possibilités intéressantes pour la recherche en sémantique lexicale. L'axe central de notre recherche est l'exploration des connaissances sur la polysémie lexicale encodées dans des modèles de plongements de mots. Nous accédons à ces connaissances par le biais d'expériences qui mesurent la similarité entre usages de mots, et en s'appuyant sur des annotations de substituts automatiquement attribuées par les modèles à des occurrences de mots en contexte. Nous étudions les représentations produites par les modèles sous leur forme brute, et explorons l'impact de leur enrichissement avec des connaissances sémantiques externes sur leur qualité. Nous évaluons les représentations intrinsèquement sur les tâches d'estimation de la similarité d'usages, de prédiction de la clusterabilité des sens des mots et de leur niveau de polysémie. De plus, nous utilisons des représentations contextualisées pour détecter des relations sémantiques entre les mots, plus spécifiquement en abordant l'intensité relative des adjectifs scalaires. Dans une perspective d'interprétation, nous étudions les connaissances que les modèles encodent sur les propriétés des substantifs telles qu'elles sont exprimées dans leurs modifieurs adjectivaux, ainsi que les propriétés d'implication caractérisant les constructions adjectif-substantif. Nos expériences explorent un large éventail de modèles contextualisés que nous comparons à des modèles qui génèrent des représentations statiques (non contextualisées) de mots. La majorité de nos analyses portent sur l'anglais mais nous testons également nos hypothèses et notre méthodologie en utilisant des modèles d’autres langues aussi bien qu'en utilisant des modèles multilingues. Nos résultats démontrent que les représentations contextualisées encodent des connaissances riches sur le sens des mots et leurs relations sémantiques, qui sont acquises lors de l’entraînement des modèles et qui sont, par la suite, enrichies par des informations provenant de nouveaux contextes d'utilisation. Nous constatons également que l'espace sémantique construit par ces modèles encode des notions sémantiques abstraites, comme la notion d'intensité des adjectifs, qui peuvent être utiles aussi bien pour l'analyse de la sémantique lexicale que dans des applications réelles. En outre, la méthodologie proposée peut être utile pour explorer d'autres propriétés sémantiques intrinsèques des mots ainsi que leurs relations sémantiques dans différentes langues, conduisant à une meilleure compréhension des connaissances sur le langage encodées dans les modèles de langue neuronaux.
Fichier principal
Vignette du fichier
96720_GARI_SOLER_2021_archivage.pdf (5.14 Mo) Télécharger le fichier
Origine : Version validée par le jury (STAR)

Dates et versions

tel-03341706 , version 1 (12-09-2021)

Identifiants

  • HAL Id : tel-03341706 , version 1

Citer

Aina Garí Soler. Word Meaning Representation in Neural Language Models : Lexical Polysemy and Semantic Relationships. Computation and Language [cs.CL]. Université Paris-Saclay, 2021. English. ⟨NNT : 2021UPASG043⟩. ⟨tel-03341706⟩
454 Consultations
551 Téléchargements

Partager

Gmail Facebook X LinkedIn More