login
english version rss feed
Detailed view PhD thesis
Université Joseph-Fourier - Grenoble I (09/07/2010), Christian BOITET (Dir.)
Attached file list to this document: 
PDF
Thesis_Abbas_Malik_-_GETALP_-_LIG.pdf(4.3 MB)
Méthodes et outils pour les problèmes faibles de traduction
Muhammad Ghulam Abbas Malik1

Étant données une langue source L1 et une langue cible L2, un segment (phrase ou titre) S de n mots écrit en L1 peut avoir un nombre exponentiel N=O(kn) de traductions valides T1...TN. Nous nous intéressons au cas où N est très faible en raison de la proximité des formes écrites de L1 et L2. Notre domaine d'investigation est la classe des paires de combinaisons de langue et de système d'écriture (Li-Wi, Lj-Wj) telles qu'il peut y avoir une seule traduction valide, ou un très petit nombre de traductions valides, pour tout segment S de Li écrit en Wi. Le problème de la traduction d'une phrase hindi/ourdou écrite en ourdou vers une phrase équivalente en devanagari tombe dans cette classe. Nous appelons le problème de la traduction pour une telle paire un problème faible de traduction. Nous avons conçu et expérimenté des méthodes de complexité croissante pour résoudre des instances de ce problème, depuis la transduction à états finis simple jusqu'à à la transformation de graphes de chaînes d'arbres syntaxiques partiels, avec ou sans l'inclusion de méthodes empiriques (essentiellement probabilistes). Cela conduit à l'identification de la difficulté de traduction d'une paire (Li-Wi, Lj-Wj) comme le degré de complexité des méthodes de traduction atteignant un objectif souhaité (par exemple, moins de 15% de taux d'erreur). Considérant la translittération ou la transcription comme un cas spécial de traduction, nous avons développé une méthode basée sur la définition d'une transcription intermédiaire universelle (UIT) pour des groupes donnés de couples Li-Wi, et avons utilisé UIT comme un pivot phonético-graphémique. Pour traiter la traduction interdialectale dans des langues à morphologie flexionnelle riche, nous proposons de faire une analyse de surface sur demande et limitée, produisant des arbres syntaxiques partiels, et de l'employer pour mettre à jour et propager des traits tels que le genre et le nombre, et pour traiter les phénomènes aux limites des mots. A côté d'expériences à grande échelle, ce travail a conduit à la production de ressources linguistiques telles que des corpus parallèles et annotés, et à des systèmes opérationnels, tous disponibles gratuitement sur le Web. Ils comprennent des corpus monolingues, des lexiques, des analyseurs morphologiques avec un vocabulaire limité, des grammaires syntagmatiques du hindi, du punjabi et de l'ourdou, des services Web en ligne pour la translittération entre hindi et ourdou, punjabi (shahmukhi) et punjabi (gurmukhi), etc. Une perspective intéressante est d'appliquer nos techniques à des paires distantes LW, pour lesquelles elles pourraient produire efficacement des présentations d'apprentissage actif, sous la forme de sorties pidgin multiples.
1:  LIG - Laboratoire d'Informatique de Grenoble
Traduction Automatique – translittération automatique – problème faible de traduction – traitement multiscriptural – traitement multilingue – automates d'états finis – transducteurs d'états finis – méthodologie basée sur des règles – approche interlingue – transcription intermédiaire – approche basée sur les graphes – traduction interactive – morphologie – transformation morphologique – transformation mot-à-mot – analyse partielle en constituants – arbre syntaxique partiel – transformation d'arbres – méthodes empiriques – méthodes probabilistes – langues de l'Asie du sud – systèmes d'écriture – ourdu – hindi – punjabi – sindhi – cachemirien – seraiki

Methods and Tools for Weak Problems of Translation
Given a source language L1 and a target language L2, a written translation unit S in L1 of n words may have an exponential number N=O(kn)) number of valid translations T1...TN. We are interested in the case where N is very small because of the proximity of the written forms of L1 and L2. Our domain of investigation is the class of pairs of language and writing system combinations (Li-Wi, Lj-Wj) such that there may be only one or a very small number of valid translations for any given S of Li written in Wi. The problem of translating a Hindi/Urdu sentence written in Urdu into an equivalent one in Devanagari falls in this class. We call the problem of translation for such a pair a weak translation problem. We have designed and experimented methods of increasing complexity for solving in-stances of this problem, from simple finite-state transduction to the transformation of charts of partial syntax trees, with or without the inclusion of empirical (mainly proba-bilistic) methods. That leads to the identification of the translation difficulty of a (Li-Wi, Lj-Wj) pair as the degree of complexity of the translation methods achieving a de-sired goal (such as less than 15% error rate). Considering transliteration or transcription as a special case of translation, we have developed a method based on the definition of a universal intermediate transcription (UIT) for given groups of Li-Wi couples and used UIT as a phonetico-graphemic pivot. For handling interdialectal translation into lan-guages with rich flexional morphology, we propose to perform a limited on-demand surface analysis into partial syntax trees and to use it to update and propagate features such as gender and number and to handle word boundary phenomena. Beside large-scale experiments, this work has led to the production of linguistic re-sources such as parallel and tagged corpora and of running systems, all freely available on the Web. They include monolingual corpora, lexicons, morphological analyzers with limited vocabulary, phrase structure grammars of Hindi, Punjabi and Urdu, online web-services for transliteration between Hindi & Urdu, Punjabi (Shahmukhi) & Punjabi (Gurmukhi), etc. An interesting perspective is to apply our techniques to distant L-W pairs, for which they could efficiently produce active learning presentations in the form of multiple pidgin outputs.
Machine Translation – Machine Transliteration – Weak Translation Problem – Multiscriptural processing – Multilingual processing – Finite-state Automata – Finite-state Transducers – Rule-based Methodology – Interlingua Approach – Intermediate Transcription – Graph-based Approach – Interactive Translation – Morphology – Morphological Transformation – Word-to-word Transformation – Partial Phrase Structure Analysis – Partial Syntax Tree – Tree Transformation – Empirical Methods – Probabilistic Methods – South Asian Languages – Writing Systems – Urdu – Hindi – Punjabi – Sindhi – Kashmiri – Seraiki

all articles on CCSd database...
all articles on CCSd database...
all articles on CCSd database...
all articles on CCSd database...
all articles on CCSd database...