Mémoires partagées d'alignements sous-phrastiques bilingues - TEL - Thèses en ligne Accéder directement au contenu
Thèse Année : 2012

Shared memories of bilingual subsentential alignments

Mémoires partagées d'alignements sous-phrastiques bilingues

Résumé

This research belongs to the Natural Language Processing (NLP) field and more specifically focuses on the topic of Sub-sentential Alignments which is closely related to Machine Translation. The originality of this work consists in an example-based approach bootstrapped by the participation of non-expert annotators through an appropriate interface. The quest for a greater expressivity, such as observed in manual alignments, mainly motivates the whole approach. An important effort has been made to define a formal environment for this original architecture based on aligned examples. Several memories have been created, using syntactic informations from parsers outputs with reasonnable low-tech requirements. Two new alignment methods were compared with state-of-theart measures and three transformational metrics were introduced
Cette thèse s'inscrit dans le cadre du traitement automatique du langage naturel, et traite plus précisément de l'alignement sous-phrastique bilingue classiquement lié à la traduction automatique statistique. Les travaux exposés s'en distinguent en proposant un fonctionnement évolutif à base d'exemples initialisé par des annotateurs non-experts via une interface adaptée. L'approche est principalement motivée par la recherche d'une expressivité comparable à celle observée dans les alignements manuels. Une partie importante de ce travail consiste à définir un cadre formel sous-tendant une architecture originale à base d'exemples alignés. Plusieurs mémoires d'alignements ont été constituées en tirant parti d'informations provenant d'analyseurs syntaxiques automatiques, en plaçant les prérequis technologiques à un niveau raisonnablement peu élevé. Deux nouvelles méthodes d'alignement sont comparées à des références connues via des mesures d'accord classiques, et trois distances transformationnelles sont introduites.
Fichier principal
Vignette du fichier
Manuscrit_Johan_Segura_2012.pdf (6.05 Mo) Télécharger le fichier
beamer_00.pdf (7.61 Mo) Télécharger le fichier
Format : Autre
Loading...

Dates et versions

tel-00981005 , version 1 (23-04-2014)

Identifiants

  • HAL Id : tel-00981005 , version 1

Citer

Johan Segura. Mémoires partagées d'alignements sous-phrastiques bilingues. Informatique et langage [cs.CL]. Université Montpellier II - Sciences et Techniques du Languedoc, 2012. Français. ⟨NNT : ⟩. ⟨tel-00981005⟩
209 Consultations
397 Téléchargements

Partager

Gmail Facebook X LinkedIn More