Les Triggers Inter-langues pour la Traduction Automatique Statistique

Caroline Lavecchia

Résumé

During my Ph.D. study, I conducted research in Machine Translation (MT), i.e. finding a possible target translation of a source sentence without any human interference. My works focused on statistical approach of MT which consists in using different probabilistic models trained on large amount of parallel corpora to retrieve the most likelihood translation given a source sentence. My thesis addresses two issues related to Statistical Machine Translation (SMT) : the collect of aligned parallel corpora and the estimation of translation models given these corpora. An SMT system extracts the knowledge necessary to perform automatic translation from parallel corpora where each source sentence is aligned with its translation in a target language. Most researches dealing with SMT use as parallel corpora the proceedings of the European Parliament available in many languages. Such corpora are not convenient for spontaneous speech translation. That's why I decided to use movie subtitles in order to achieve a more realistic machine translation system. Movie subtitles are considered as difficult data and cannot be used as parallel corpora for SMT without processing. I proposed an original algorithm based on Dynamic Time Wrapping to automatically align movie subtitles. Thus, I obtained parallel corpora that constitute a rich resource to train SMT system. In SMT, different statistical models are trained on parallel corpora such as alignment model, translation table, or distortion model. The translation table is the major model needed by an SMT system to perform the process. It gives the translation probability between target and source words. Existing methods usually estimate these tables based on word alignment which is obtained through complex and thus time consuming algorithms. My principal purpose was to rethink the problem and to prospect new options for generating the translation tables, at word and phrase level, which are totally different from state-of-the-art solutions. I proposed an original approach based on inter-lingual triggers, which does not require any alignment at word level. Inter-lingual triggers allow revealing highly correlated source and target word sequences by computing Mutual Information (MI) between them. The idea behind this concept is that if a source sequence is strongly correlated with a target one in terms of MI then we suppose that the occurrence of the first triggers the occurrence of the last and vice versa. I proposed to use inter-lingual triggers on parallel corpora in order to retrieve probable translations of word sequences and thus constitute a translation table. MI is a co-occurrence measure easily computable in one pass on parallel corpora. For selecting inter-lingual triggers, we assume that two sequences co-occur if they appear in at least one pair of sentences of the parallel corpora. Thus, the method that I proposed does not require alignment at word level but only at sentence level. The use of inter-lingual triggers makes my approach to estimate translation tables less complex but as efficient as existing approaches. At word level, the translation table obtained with interlingual triggers conducted to automatic translations with better quality, in terms of BLEU score, than those produced with a word translation table estimated by the well-know IBM model 3. At phrase level, the translation table based on inter-lingual triggers leads to automatic translations with a BLEU score greater than 34 and very close to those obtained by a phrase translation table estimated with a state-of-the-art method which requires word alignment on the parallel corpora. Keywords: Statistical Machine Translation, Inter-lingual Triggers, phrase-based Machine Translation

Les recherches menées dans le cadre de mon doctorat concernent le domaine de la Traduction Automatique (TA), ou comment traduire d'une langue source vers une langue cible sans aucune intervention humaine. Mes travaux se sont plus particulièrement concentrés sur l'approche statistique de la TA qui consiste à utiliser différents modèles probabilistes appris sur des quantités importantes de corpus parallèles alignés afin de trouver la traduction la plus vraisemblable d'une phrase source. Deux problèmes étroitement liés à l'approche statistique de la TA sont abordés dans ce manuscrit : la collecte de corpus parallèles et l'estimation de modèles de traduction à partir de ces corpus. Un système de TA statistique extrait la connaissance dont il a besoin pour produire des traductions à partir de corpus parallèles dans lesquels chaque phrase source est associée à sa traduction dans la langue cible. De nombreux travaux utilisent comme corpus parallèle les actes du Parlement Européen disponibles gratuitement en différentes langues. De tels corpus ne sont pas adéquats pour la traduction de parole spontanée, c'est pourquoi j'ai décidé de construire des corpus parallèles à partir de sous-titres de films afin de construire un système de traduction plus réaliste. Les sous-titres sont des données complexes, ils ne peuvent constituer un corpus parallèle aligné dans leur état brut. Ils nécessitent une phase de pré-traitement et d'alignement. J'ai pour cela proposé une méthode originale basée sur la Programmation Dynamique qui aligne automatiquement les sous-titres. J'ai ainsi constitué une ressource importante et riche pour l'apprentissage des systèmes de TA statistique. La TA statistique repose sur l'utilisation de plusieurs modèles statistiques comme le modèle d'alignement, la table de traduction ou encore le modèle de distortion. La table de traduction est le modèle le plus indispensable à un système de TA statisque pour calculer la traduction la plus vraisemblable d'une phrase source. En effet, celle-ci donne les probabilités de traduction entre les couples de mots sources et cibles. Il existe différentes méthodes permettant l'estimation de ces tables de traduction. Elles ont habituellement recours à un alignement des mots obtenu automatiquement sur les corpus parallèles. Cette tâche d'alignement est une étape longue et fastidieuse qui fait appel à des algorithmes complexes. Le coeur de mon travail a été de repenser le problème et d'explorer de nouvelles pistes pour estimer les tables de traduction de mots et de séquences de mots, totalement différentes des méthodes état-de-l'art. J'ai proposé une approche originale basée sur le concept de triggers inter-langues qui ne nécessite aucun alignement des mots au sein des corpus parallèles. Les triggers inter-langues permettent de mettre en évidence des unités fortement corrélés en se basant sur l'Information Mutuelle. Dans notre cas les unités sont des séquences de mots sources et cibles. L'idée derrière ce concept est que si une séquence de mots sources est fortement corrélée à une séquence de mots cibles en termes d'IM, alors nous pouvons supposer que la présence de la première dans une phrase source déclenchera la présence de la seconde dans sa traduction et vice versa. J'ai proposé d'utiliser les triggers inter-langues sur les corpus parallèles dans le but de trouver les traductions possibles de séquences de mots et ainsi constituer une table de traduction. L'Information Mutuelle est une mesure de co-occurence qui se calcule simplement en un seul passage sur le corpus parallèle. Pour sélectionner les triggers interlangues, nous supposons que deux séquences sources et cibles co-occurent si elles apparaissent dans une même paire de phrases du corpus parallèle. De ce fait, ma méthode ne requiert qu'un alignement au niveau des phrases et non au niveau des mots au sein du corpus parallèle. L'utilisation des triggers inter-langues pour estimer une table de traduction rend mon approche moins complexe mais tout aussi efficace que les approches existantes. Dans un contexte de traduction mot-à-mot, la table de traduction obtenue grâce aux triggers inter-langues conduit à des traductions automatiques de meilleur qualité, en termes de score BLEU, que celles produites avec une table de traduction de mots estimée selon le modèle 3 d'IBM. Dans un contexte de traduction par groupe de mots, la table de traduction basée sur les triggers inter-langues amènent à des traductions automatiques dont le score BLEU est supérieur à 34 et proche de celui des traductions automatiques produites par une table de traduction de séquences estimées à partir de l'alignement des mots suivant les approches état-de-l'art. Mots-clés: Traduction Automatique Statistique, Triggers Inter-langues, Traduction Automatique à base de séquences

Inter-lingual Triggers for Statistical Machine Translation

Les Triggers Inter-langues pour la Traduction Automatique Statistique

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager