Skip to Main content Skip to Navigation
Theses

Construction automatique d'outils et de ressources linguistiques à partir de corpus parallèles

Othman Zennaki 1, 2
2 LVIC - Laboratoire Vision et Ingénierie des Contenus
DIASI - Département Intelligence Ambiante et Systèmes Interactifs : DRT/LIST/DIASI
Résumé : Cette thèse porte sur la construction automatique d’outils et de ressources pour l’analyse linguistique de textes des langues peu dotées. Nous proposons une approche utilisant des réseaux de neurones récurrents (RNN - Recurrent Neural Networks) et n'ayant besoin que d'un corpus parallèle ou mutli-parallele entre une langue source bien dotée et une ou plusieurs langues cibles moins bien ou peu dotées. Ce corpus parallèle ou mutli-parallele est utilisé pour la construction d'une représentation multilingue des mots des langues source et cible. Nous avons utilisé cette représentation multilingue pour l’apprentissage de nos modèles neuronaux et nous avons exploré deux architectures neuronales : les RNN simples et les RNN bidirectionnels. Nous avons aussi proposé plusieurs variantes des RNN pour la prise en compte d'informations linguistiques de bas niveau (informations morpho-syntaxiques) durant le processus de construction d'annotateurs linguistiques de niveau supérieur (SuperSenses et dépendances syntaxiques). Nous avons démontré la généricité de notre approche sur plusieurs langues ainsi que sur plusieurs tâches d'annotation linguistique. Nous avons construit trois types d'annotateurs linguistiques multilingues: annotateurs morpho-syntaxiques, annotateurs en SuperSenses et annotateurs en dépendances syntaxiques, avec des performances très satisfaisantes. Notre approche a les avantages suivants : (a) elle n'utilise aucune information d'alignement des mots, (b) aucune connaissance concernant les langues cibles traitées n'est requise au préalable (notre seule supposition est que, les langues source et cible n'ont pas une grande divergence syntaxique), ce qui rend notre approche applicable pour le traitement d'un très grand éventail de langues peu dotées, (c) elle permet la construction d'annotateurs multilingues authentiques (un annotateur pour N langages).
Complete list of metadatas

Cited literature [165 references]  Display  Hide  Download

https://tel.archives-ouvertes.fr/tel-02173773
Contributor : Abes Star :  Contact
Submitted on : Thursday, July 4, 2019 - 4:33:06 PM
Last modification on : Friday, July 3, 2020 - 4:46:43 PM

File

ZENNAKI_2019_diffusion.pdf
Version validated by the jury (STAR)

Identifiers

  • HAL Id : tel-02173773, version 1

Collections

Citation

Othman Zennaki. Construction automatique d'outils et de ressources linguistiques à partir de corpus parallèles. Linguistique. Université Grenoble Alpes, 2019. Français. ⟨NNT : 2019GREAM006⟩. ⟨tel-02173773⟩

Share

Metrics

Record views

309

Files downloads

134