Epidemic Event Extraction in Multilingual and Low-resource Settings

Stephen Mutuvi

Theses Year : 2022

Epidemic Event Extraction in Multilingual and Low-resource Settings

Extraction d'événements épidémiologiques dans un contexte multilingue et peu doté

(1)

Stephen Mutuvi

Function : Author
PersonId : 1144152
IdHAL : stephen-mutuvi
ORCID : 0000-0002-3067-9806

La Rochelle Université

Abstract

Epidemic event extraction aims to extract incidents of public health importance from text, such as disease outbreaks. While event extraction has been extensively researched for high-resource languages such as English, existing systems for epidemic event extraction are sub-optimal for low-resource, multilingual settings due to training data scarcity. First, we tackle the data scarcity challenge by transforming and annotating an existing document-level multilingual dataset into a token-level annotated dataset suitable for supervised sequence learning. Second, we formulate the event extraction task as a sequence labeling task and utilize the token-level annotated dataset to train supervised machine and deep learning models for epidemic event extraction. The results show that pre-trained language models produced the best overall performance across all the evaluated languages. Third, we propose a domain adaptation technique by including epidemiological entities (disease names and locations) in the vocabulary of pre-trained models. Incorporating the entities positively impacted the tokenization quality, contributing to model performance improvement. Finally, we evaluate self-training and observe that the approach performs marginally better than models trained using supervised learning.

L'extraction d'événements épidémiques a pour but d'extraire de textes des incidents d'importance pour la santé publique, tels que des épidémies. Alors que l'extraction d'événements a fait l'objet de recherches approfondies pour les langues à fortes ressources comme l'anglais, les systèmes existants d'extraction d'événements épidémiques ne sont pas optimaux pour les contextes multilingues à faibles ressources en raison de la rareté des données d'entraînement. Tout d'abord, nous nous attaquons au problème de la rareté des données en transformant et en annotant un ensemble de données multilingues existantes au niveau des documents en un ensemble de données annotées au niveau des jetons, adapté à l'apprentissage supervisé des séquences. Ensuite, nous formulons la tâche d'extraction d'événements comme une tâche d'étiquetage de séquences et nous utilisons l'ensemble de données annotées au niveau des jetons pour entraîner des modèles supervisés d'apprentissage automatique et profond pour l'extraction d'événements épidémiques. Les résultats montrent que les modèles linguistiques pré-entraînés ont produit la meilleure performance globale dans toutes les langues évaluées. Troisièmement, nous proposons une technique d'adaptation au domaine en incluant des entités épidémiologiques (noms de maladies et lieux) dans le vocabulaire des modèles pré-entraînés. L'incorporation de ces entités a eu un impact positif sur la qualité de la tokénisation, contribuant ainsi à l'amélioration des performances du modèle. Enfin, nous évaluons l'auto-formation et observons que l'approche est légèrement plus performante que les modèles formés par apprentissage supervisé.

Keywords

Epidemic event extraction Multilingualism Low-resource languages Data scarcity Machine learning Deep learning

Extraction des événements épidémiques Multilinguisme Langues peu dotées Manque de donnees annotées Apprentissage automatique Apprentissage profond

Domains

Document and Text Processing Machine Learning [cs.LG]

Fichier principal

2022MUTUVI200091.pdf (2.12 Mo)

Origin : Version validated by the jury (STAR)

ABES STAR : Contact

https://theses.hal.science/tel-03978917

Submitted on : Wednesday, July 12, 2023-4:29:47 PM

Last modification on : Saturday, July 15, 2023-4:00:40 AM

Dates and versions

tel-03978917 , version 1 (01-03-2023)

tel-03978917 , version 2 (12-07-2023)

Identifiers

HAL Id : tel-03978917 , version 2

Cite

Stephen Mutuvi. Epidemic Event Extraction in Multilingual and Low-resource Settings. Document and Text Processing. Université de La Rochelle, 2022. English. ⟨NNT : 2022LAROS044⟩. ⟨tel-03978917v2⟩

Export

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

STAR UNIV-ROCHELLE THESES-LRU

150 View

149 Download

Epidemic Event Extraction in Multilingual and Low-resource Settings

Extraction d'événements épidémiologiques dans un contexte multilingue et peu doté

Abstract

Keywords

Domains

Dates and versions

Identifiers

Cite

Export

Collections

Share