Contribution des basses fréquences à l'alignement sous-phrastique multilingue : une approche différentielle - TEL - Thèses en ligne Accéder directement au contenu
Thèse Année : 2010

The contribution of low frequencies to multilingual sub-sentential alignment: a differential approach

Contribution des basses fréquences à l'alignement sous-phrastique multilingue : une approche différentielle

Résumé

The goal of this thesis dissertation is to show that, contrary to preconceived ideas, one can efficiently take advantage of low frequency words in natural language processing. We put them to use in sub-sentential alignment, which constitutes the first step of most data-driven machine translation systems (statistical or example-based machine translation). We show that rare words can be used as a foundation in the design of a multilingual sub-sentential alignment method, using differential techniques similar to those found in example-based machine translation. This method is truly multilingual, in that it allows the simultaneous processing of any number of languages. Moreover, it is very simple, anytime, and scales up naturally. We compare our implementation, Anymalign, to two statistical tools proven in the domain. Although its current results are in average slightly behind those of state of the art methods in phrase-based statistical machine translation, we show that the intrinsic quality of our lexicons is actually superior to that of lexicons produced by state of the art methods.
L'objectif de cette thèse est de montrer que, contrairement aux idées reçues, les mots de basses fréquences peuvent être mis à profit de façon efficace en traitement automatique des langues. Nous les mettons à contribution en alignement sous-phrastique, tâche qui constitue la première étape de la plupart des systèmes de traduction automatique fondée sur les données (traduction probabiliste ou par l'exemple). Nous montrons que les mots rares peuvent servir de fondement même dans la conception d'une méthode d'alignement sous-phrastique multilingue, à l'aide de techniques différentielles proches de celles utilisées en traduction automatique par l'exemple. Cette méthode est réellement multilingue, en ce sens qu'elle permet le traitement simultané d'un nombre quelconque de langues. Elle est de surcroît très simple, anytime, et permet un passage à l'échelle naturel. Nous comparons notre implémentation, Anymalign, à deux ténors statistiques du domaine sur des tâches bilingues. Bien qu'à l'heure actuelle ses résultats sont en moyenne légèrement en retrait par rapport à l'état de l'art en traduction automatique probabiliste par segments, nous montrons que la qualité propre des lexiques produits par notre méthode est en fait supérieure à celle de l'état de l'art.
Fichier principal
Vignette du fichier
theseA5_Lardilleux.pdf (2.53 Mo) Télécharger le fichier
presentation_Lardilleux.pdf (1.32 Mo) Télécharger le fichier
theseA5_Lardilleux_pourImpressionEnLivret.pdf (2 Mo) Télécharger le fichier
Format : Autre
Format : Autre

Dates et versions

tel-00520787 , version 1 (24-09-2010)

Identifiants

  • HAL Id : tel-00520787 , version 1

Citer

Adrien Lardilleux. Contribution des basses fréquences à l'alignement sous-phrastique multilingue : une approche différentielle. Interface homme-machine [cs.HC]. Université de Caen, 2010. Français. ⟨NNT : ⟩. ⟨tel-00520787⟩
204 Consultations
336 Téléchargements

Partager

Gmail Facebook X LinkedIn More