Leveraging linguistic and semantic information for relation extraction from domain-specific texts

Anfu Tang

Thèse Année : 2023

Leveraging linguistic and semantic information for relation extraction from domain-specific texts

Exploitation de l'information linguistique et sémantique pour l'extraction de relations à partir de textes en domaine spécialisé

(1, 2)

1
2

Anfu Tang

Fonction : Auteur
PersonId : 1207692

Mathématiques et Informatique Appliquées du Génome à l'Environnement [Jouy-En-Josas]

Laboratoire Interdisciplinaire des Sciences du Numérique

Résumé

This thesis aims to extract relations from scientific documents in the biomedical domain, i.e. transform unstructured texts into structured data that is machine-readable. As a task in the domain of Natural Language Processing (NLP), the extraction of semantic relations between textual entities makes explicit and formalizes the underlying structures. Current state-of-the-art methods rely on supervised learning, more specifically the fine-tuning of pre-trained language models such as BERT. Supervised learning requires a large amount of examples that are expensive to produce, especially in specific domains such as the biomedical domain. BERT variants such as PubMedBERT have been successful on NLP tasks involving biomedical texts. We hypothesize that injecting external information such as syntactic information or factual knowledge into such BERT variants can compensate for the reduced number of annotated training data. To this end, this thesis consists of proposing several neural architectures based on PubMedBERT that exploit linguistic information obtained by syntactic parsers or domain knowledge from knowledge bases.

Cette thèse a pour objet l'extraction d'informations relationnelles à partir de documents scientifiques biomédicaux, c'est-à-dire la transformation de texte non structuré en information structurée exploitable par une machine. En tant que tâche dans le domaine du traitement automatique des langues (TAL), l'extraction de relations sémantiques spécialisées entre entités textuelles rend explicite et formalise les structures sous-jacentes. Les méthodes actuelles à l'état de l'art s'appuient sur de l'apprentissage supervisé, plus spécifiquement l'ajustement de modèles de langue pré-entraînés comme BERT. L'apprentissage supervisé a besoin de beaucoup d'exemples d'apprentissages qui sont coûteux à produire, d'autant plus dans les domaines spécialisés comme le domaine biomédical. Les variants de BERT, comme par exemple PubMedBERT, ont obtenu du succès sur les tâches de TAL dans des textes biomédicaux. Nous faisons l'hypothèse que l'injection d'informations externes telles que l'information syntaxique ou la connaissance factuelle dans ces variants de BERT peut pallier le nombre réduit de données d'entraînement annotées. Dans ce but, cette thèse concevra plusieurs architectures neuronales basés sur PubMedBERT qui exploitent des informations linguistiques obtenues par analyse syntaxique ou des connaissances du domaine issues de bases de connaissance.

Mots clés

Natural language processing Relation extraction Language model Syntactic parsing Deep learning Knowledge base

Traitement automatique des langues Extraction de relations Modèle de langue Analyse syntaxique Apprentissage profond Base de connaissances

Domaines

Recherche d'information [cs.IR] Traitement du texte et du document Intelligence artificielle [cs.AI] Bio-informatique [q-bio.QM]

Fichier principal

124635_TANG_2023_archivage.pdf (3.07 Mo)

Origine : Version validée par le jury (STAR)

ABES STAR : Contact

https://hal.inrae.fr/tel-04420517

Soumis le : mardi 20 février 2024-11:54:07

Dernière modification le : mardi 12 mars 2024-10:45:12

Dates et versions

tel-04420517 , version 1 (20-02-2024)

Identifiants

HAL Id : tel-04420517 , version 1

Citer

Anfu Tang. Leveraging linguistic and semantic information for relation extraction from domain-specific texts. Information Retrieval [cs.IR]. Université Paris-Saclay, 2023. English. ⟨NNT : 2023UPASG081⟩. ⟨tel-04420517⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

CNRS INRIA STAR CENTRALESUPELEC UNIV-PARIS-SACLAY INRAE LISN GS-MATHEMATIQUES GS-COMPUTER-SCIENCE GS-BIOSPHERA GS-LIFE-SCIENCES-HEALTH MAIAGE MICA-UNITES MATHNUM

113 Consultations

8 Téléchargements

Leveraging linguistic and semantic information for relation extraction from domain-specific texts

Exploitation de l'information linguistique et sémantique pour l'extraction de relations à partir de textes en domaine spécialisé

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager