Epidemic Event Extraction in Multilingual and Low-resource Settings - TEL - Thèses en ligne Access content directly
Theses Year : 2022

Epidemic Event Extraction in Multilingual and Low-resource Settings

Extraction d'événements épidémiologiques dans un contexte multilingue et peu doté

Stephen Mutuvi

Abstract

Epidemic event extraction aims to extract incidents of public health importance from text, such as disease outbreaks. While event extraction has been extensively researched for high-resource languages such as English, existing systems for epidemic event extraction are sub-optimal for low-resource, multilingual settings due to training data scarcity. First, we tackle the data scarcity challenge by transforming and annotating an existing document-level multilingual dataset into a token-level annotated dataset suitable for supervised sequence learning. Second, we formulate the event extraction task as a sequence labeling task and utilize the token-level annotated dataset to train supervised machine and deep learning models for epidemic event extraction. The results show that pre-trained language models produced the best overall performance across all the evaluated languages. Third, we propose a domain adaptation technique by including epidemiological entities (disease names and locations) in the vocabulary of pre-trained models. Incorporating the entities positively impacted the tokenization quality, contributing to model performance improvement. Finally, we evaluate self-training and observe that the approach performs marginally better than models trained using supervised learning.
L'extraction d'événements épidémiques a pour but d'extraire de textes des incidents d'importance pour la santé publique, tels que des épidémies. Alors que l'extraction d'événements a fait l'objet de recherches approfondies pour les langues à fortes ressources comme l'anglais, les systèmes existants d'extraction d'événements épidémiques ne sont pas optimaux pour les contextes multilingues à faibles ressources en raison de la rareté des données d'entraînement. Tout d'abord, nous nous attaquons au problème de la rareté des données en transformant et en annotant un ensemble de données multilingues existantes au niveau des documents en un ensemble de données annotées au niveau des jetons, adapté à l'apprentissage supervisé des séquences. Ensuite, nous formulons la tâche d'extraction d'événements comme une tâche d'étiquetage de séquences et nous utilisons l'ensemble de données annotées au niveau des jetons pour entraîner des modèles supervisés d'apprentissage automatique et profond pour l'extraction d'événements épidémiques. Les résultats montrent que les modèles linguistiques pré-entraînés ont produit la meilleure performance globale dans toutes les langues évaluées. Troisièmement, nous proposons une technique d'adaptation au domaine en incluant des entités épidémiologiques (noms de maladies et lieux) dans le vocabulaire des modèles pré-entraînés. L'incorporation de ces entités a eu un impact positif sur la qualité de la tokénisation, contribuant ainsi à l'amélioration des performances du modèle. Enfin, nous évaluons l'auto-formation et observons que l'approche est légèrement plus performante que les modèles formés par apprentissage supervisé.
Fichier principal
Vignette du fichier
2022MUTUVI200091.pdf (2.12 Mo) Télécharger le fichier
Origin : Version validated by the jury (STAR)

Dates and versions

tel-03978917 , version 1 (01-03-2023)
tel-03978917 , version 2 (12-07-2023)

Identifiers

  • HAL Id : tel-03978917 , version 2

Cite

Stephen Mutuvi. Epidemic Event Extraction in Multilingual and Low-resource Settings. Document and Text Processing. Université de La Rochelle, 2022. English. ⟨NNT : 2022LAROS044⟩. ⟨tel-03978917v2⟩
150 View
149 Download

Share

Gmail Facebook X LinkedIn More