Vers une meilleure utilisabilité des mémoires de traduction, fondée sur un alignement sous-phrastique

Christophe Chenon

Thèse Année : 2005

Toward an improved usability of translation memories, based on sub-phrasal alignments

Vers une meilleure utilisabilité des mémoires de traduction, fondée sur un alignement sous-phrastique

(1)

Christophe Chenon

Fonction : Auteur
PersonId : 833040

Communication Langagière et Interaction Personne-Système

Résumé

Computer aided translation has known a boost in the years 1990s with the introduction of translation memory-based environments. These systems take advantage of the repetitiveness of technical materials that are produced and translated in the industry, by allowing translators to reuse archive translation thus improving their productivity. Translation memories use text segments (typically whole sentences) delineated and aligned thanks to the translators expertise, and do not perform any advanced analysis.

However, these memories contain very rich information at sub-sentential levels but translators cannot benefit from it. The TransTree formalism captures nested correspondences between sub-segments of bilingual or multilingual texts. These complex correspondences, called amphigrams, make up a tree structure that is easily expressed in XML. With a simple shallow transformation, a dynamical visualization can be obtained that demonstrates several levels of correspondences between sub-segments.

TransTree comes with a general, statistical method to compute this information, based on binary secability trees. This method analyses any bisegment and programmatically produces a TransTree representation from correspondences between typographical words in bisegments. Moreover, it is possible to abstract translation patterns, called generic amphigrams, by clustering techniques over examples found in the corpus.

A few experiments were conducted to validate the expressive power of the formalism, investigate several implementation options and introduce an algorithm to reassemble a target string from a previously unseen source segment with knowledge extracted from translation memories.

La traduction assistée par ordinateur a connu un grand essor dans les années 1990 avec l'arrivée des environnements à mémoires de traduction. Ces systèmes exploitent la redondance des textes techniques produits et traduits dans l'industrie, en proposant aux traducteurs de réutiliser des traductions archivées et d'accroître ainsi leur productivité. Ces mémoires utilisent, sans analyse, des segments de textes (le plus souvent des phrases entières) dont le découpage et l'alignement sont garantis par le traducteur.

Pourtant ces mémoires recèlent des gisements d'information importants au niveau sous-phrastique dont les utilisateurs ne peuvent pas bénéficier. Le formalisme TransTree permet de représenter des correspondances sous-segmentales enchassées bilingues. Ces correspondances complexes (les amphigrammes) forment une structure arborescente exprimable en XML. Une transformation de surface conduit à une visualisation dynamique mettant en évidence les différents niveaux de correspondance entre sous-segments.

TransTree s'accompagne d'une méthode générale de construction par voie statistique, fondée sur les arbres binaires de sécabilité. Cette méthode permet d'établir des amphigrammes à partir des correspondances entre mots typographiques. Il est possible d'abstraire des patrons de traduction (amphigrammes génériques) par classification des exemples rencontrés dans le corpus.

Quelques expérimentations ont été effectuées pour valider le pouvoir d'expression du formalisme, explorer différentes options de construction et esquisser un algorithme de reconstitution d'un segment cible à partir d'un segment source inconnu avec la connaissance extraite des mémoires de traduction.

Mots clés

translation memory mutual information alignment clusterization binary tree correspondence secability bilingual corpus

mémoire de traduction information mutuelle alignement classification arbre binaire correspondance sécabilité corpus bilingue

Domaines

Interface homme-machine [cs.HC]

Fichier principal

TheseXoFChenon-31oct05.pdf (2.66 Mo)

Soutenance.final.ppt (695 Ko)

selectionHTML.html (34.7 Ko)

Format : Autre

Christophe Chenon : Connectez-vous pour contacter le contributeur

https://theses.hal.science/tel-00012126

Soumis le : mercredi 12 avril 2006-16:52:50

Dernière modification le : jeudi 4 avril 2024-20:53:32

Archivage à long terme le : mercredi 8 septembre 2010-16:23:42

Dates et versions

tel-00012126 , version 1 (12-04-2006)

Identifiants

HAL Id : tel-00012126 , version 1

Citer

Christophe Chenon. Vers une meilleure utilisabilité des mémoires de traduction, fondée sur un alignement sous-phrastique. Interface homme-machine [cs.HC]. Université Joseph-Fourier - Grenoble I, 2005. Français. ⟨NNT : ⟩. ⟨tel-00012126⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

UGA IMAG CNRS UJF

375 Consultations

5364 Téléchargements

Toward an improved usability of translation memories, based on sub-phrasal alignments

Vers une meilleure utilisabilité des mémoires de traduction, fondée sur un alignement sous-phrastique

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager