Skip to Main content Skip to Navigation
Theses

Désambiguïsation lexicale de l'arabe pour et par la traduction automatique

Résumé : Nous abordons dans cette thèse une étude sur la tâche de la désambiguïsation lexicale qui est une tâche centrale pour le traitement automatique des langues, et qui peut améliorer plusieurs applications telles que la traduction automatique ou l'extraction d'informations. Les recherches en désambiguïsation lexicale concernent principalement l'anglais, car la majorité des autres langues manque d'une référence lexicale standard pour l'annotation des corpus, et manque aussi de corpus annotés en sens pour l'évaluation, et plus important pour la construction des systèmes de désambiguïsation lexicale. En anglais, la base de données lexicale wordnet est une norme de-facto de longue date utilisée dans la plupart des corpus annotés et dans la plupart des campagnes d'évaluation.Notre contribution porte sur plusieurs axes: dans un premier temps, nous présentons une méthode pour la création automatique de corpus annotés en sens pour n'importe quelle langue, en tirant parti de la grande quantité de corpus anglais annotés en sens wordnet, et en utilisant un système de traduction automatique. Cette méthode est appliquée sur la langue arabe et est évaluée sur le seul corpus arabe, qui à notre connaissance, soit annoté manuellement en sens wordnet: l'OntoNotes 5.0 arabe que nous avons enrichi semi-automatiquement. Son évaluation est réalisée grâce à la mise en œuvre de deux systèmes supervisés (SVM, LSTM) qui sont entraînés sur les corpus produits avec notre méthode.Grâce ce travail, nous proposons ainsi une base de référence solide pour l'évaluation des futurs systèmes de désambiguïsation lexicale de l’arabe, en plus des corpus arabes annotés en sens que nous fournissons en tant que ressource librement disponible.Dans un second temps, nous proposons une évaluation in vivo de notre système de désambiguïsation de l’arabe en mesurant sa contribution à la performance de la tâche de traduction automatique.
Document type :
Theses
Complete list of metadatas

Cited literature [125 references]  Display  Hide  Download

https://tel.archives-ouvertes.fr/tel-02139438
Contributor : Abes Star :  Contact
Submitted on : Friday, May 24, 2019 - 4:43:06 PM
Last modification on : Friday, July 17, 2020 - 11:10:24 AM

File

HADJ_SALAH_2018_Archivage.pdf
Version validated by the jury (STAR)

Identifiers

  • HAL Id : tel-02139438, version 1

Collections

STAR | LIG | CNRS | UGA

Citation

Marwa Hadj Salah. Désambiguïsation lexicale de l'arabe pour et par la traduction automatique. Traitement du texte et du document. Université de Sfax (Tunisie). Faculté des Sciences économiques et de gestion, 2018. Français. ⟨NNT : 2018GREAM089⟩. ⟨tel-02139438⟩

Share

Metrics

Record views

305

Files downloads

294