Incorporating expert knowledge in deep neural networks for domain adaptation in natural language processing

Guilhem Xavier Piat

Résumé

Current state-of-the-art Language Models (LMs) are able to converse, summarize, translate, solve novel problems, reason, and use abstract concepts at a near-human level. However, to achieve such abilities, and in particular to acquire ``common sense'' and domain-specific knowledge, they require vast amounts of text, which are not available in all languages or domains. Additionally, their computational requirements are out of reach for most organizations, limiting their potential for specificity and their applicability in the context of sensitive data.Knowledge Graphs (KGs) are sources of structured knowledge which associate linguistic concepts through semantic relations. These graphs are sources of high quality knowledge which pre-exist in a variety of otherwise low-resource domains, and are denser in information than typical text. By allowing LMs to leverage these information structures, we could remove the burden of memorizing facts from LMs, reducing the amount of text and computation required to train them and allowing us to update their knowledge with little to no additional training by updating the KGs, therefore broadening their scope of applicability and making them more democratizable.Various approaches have succeeded in improving Transformer-based LMs using KGs. However, most of them unrealistically assume the problem of Entity Linking (EL), i.e. determining which KG concepts are present in the text, is solved upstream. This thesis covers the limitations of handling EL as an upstream task. It goes on to examine the possibility of learning EL jointly with language modeling, and finds that while this is a viable strategy, it does little to decrease the LM's reliance on in-domain text. Lastly, this thesis covers the strategy of using KGs to generate text in order to leverage LMs' linguistic abilities and finds that even naïve implementations of this approach can result in measurable improvements on in-domain language processing.

Les Modèles de Langage (LMs) de pointe sont capables de converser, résumer, traduire, résoudre des problèmes inédits, raisonner, et manipuler des concepts abstraits à niveau quasi-humain. Cependant, pour acquérir ces capacités, et en particulier pour acquérir une forme de ``bon sens'' ou des connaissances spécifiques à un domaine, ils requièrent de vastes quantités de texte, qui ne sont pas disponibles pour toutes les langues ou tous les domaines. De surcroît, leurs besoins en puissance de calcul ne sont atteignables que par quelques organisations, limitant leur spécificité ainsi que leur applicabilité aux données sensibles.Les Graphes de Connaissances (GCs) sont des sources de connaissances structurées qui associent des concepts linguistiques entre eux par le biais de relations sémantiques. Ces graphes sont des sources de connaissances de haute qualité, préexistantes dans une variété de domaines même peu dotés en ressources, et plus denses en informations que du texte. En permettant aux LMs d'exploiter ces structures d'information, ils sont délestés de la responsabilité de mémoriser les informations factuelles, réduisant la quantité de ressources textuelles et calculatoires nécessaires à leur entraînement, et nous permettant de mettre à jour leur connaissances à moindre coût, élargissant leur cadre d'application et augmentant leur potentiel de démocratisation.Diverses approches pour l'amélioration de LMs par intégration de GCs ont démontré leur efficacité. Elles reposent cependant sur la supposition rarement vérifiée que le problème de Désambiguïsation d'Entités Nommées (DEN) est résolu en amont. Ce mémoire couvre les limitations de cette approche, puis explore l'apprentissage simultané de modélisation de langue et de DEN. Cette démarche s'avère viable mais échoue à réduire considérablement la dépendance du LM sur le texte issu du domaine. Enfin, ce mémoire aborde la stratégie de générer du texte à partir de GCs de manière à exploiter les capacités linguistiques des LMs. Il en ressort que même une implémentation naïve de cette approche peut se solder par de considérables progrès en modélisation de langue dans des domaines de spécialité.

Incorporating expert knowledge in deep neural networks for domain adaptation in natural language processing

Intégration de connaissances expertes dans des modèles neuronaux profonds pour l'adaptation au domaine dans le traitement automatique de la langue

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager