Skip to Main content Skip to Navigation
Theses

Construction et évaluation pour la TA d'un corpus journalistique bilingue : application au français-somali

Résumé : Dans le cadre des travaux en cours pour informatiser un grand nombre de langues « peu dotées », en particulier celles de l’espace francophone, nous avons créé un système de traduction automatique français-somali dédié à un sous-langage journalistique, permettant d’obtenir des traductions de qualité, à partir d’un corpus bilingue construit par post-édition des résultats de Google Translate (GT), à destination des populations somalophones et non francophones de la Corne de l’Afrique. Pour cela, nous avons constitué le tout premier corpus parallèle français-somali de qualité, comprenant à ce jour 98 912 mots (environ 400 pages standard) et 10 669 segments. Ce dernier constitue’est un corpus aligné, et de très bonne qualité, car nous l’avons construit en post-éditant les pré-traductions de GT, qui combine pour cela avec une combinaison de lason système de TA français-anglais et système de TA anglais-somali. Il Ce corpus a également fait l’objet d’une évaluation de la part depar 9 annotateurs bilingues qui ont donné une note score de qualité à chaque segment du corpus, et corrigé éventuellement notre post-édition. À partir de ce corpus, en croissance, nous avons construit plusieurs versions successives d’un système de Traduction Automatique à base de fragments (PBMT), MosesLIG-fr-so, qui s’est révélé meilleur que GoogleTranslate GT sur ce couple de langues et ce sous-langage, en termes de mesure BLEU et du temps de post-édition. Nous avons fait également une première expérience de traduction automatique neuronale français-somali en utilisant OpenNMT, de façon à améliorer les résultats de la TA sans aboutir à des temps de calcul prohibitifs, tant durant l’entraînement que durant le décodage.D’autre part, nous avons mis en place une iMAG (passerelle interactive d’accès multilingue) qui permet à des internautes somaliens non francophones du continent d’accéder en somali à l’édition en ligne du journal « La Nation de Djibouti ». Les segments (phrases ou titres) prétraduits automatiquement par notre un système de TA fr-so en ligne disponible peuvent être post-édités et notés (sur sur une échelle de 1 à 20) par les lecteurs eux-mêmes, de façon à améliorer le système par apprentissage incrémental, de la même façon que ce qui a été fait pour le système français-chinois (PBMT) créé par [Wang, 2015].
Complete list of metadatas

Cited literature [136 references]  Display  Hide  Download

https://tel.archives-ouvertes.fr/tel-02269987
Contributor : Abes Star :  Contact
Submitted on : Friday, August 23, 2019 - 2:58:41 PM
Last modification on : Friday, July 17, 2020 - 11:10:24 AM
Document(s) archivé(s) le : Friday, January 10, 2020 - 8:25:05 AM

File

AHMED_ASSOWE_2019_archivage.pd...
Version validated by the jury (STAR)

Identifiers

  • HAL Id : tel-02269987, version 1

Collections

STAR | LIG | CNRS | UGA

Citation

Houssein Ahmed Assowe. Construction et évaluation pour la TA d'un corpus journalistique bilingue : application au français-somali. Informatique et langage [cs.CL]. Université Grenoble Alpes, 2019. Français. ⟨NNT : 2019GREAM019⟩. ⟨tel-02269987⟩

Share

Metrics

Record views

401

Files downloads

209