616 articles  [english version]
Fiche détaillée Thèses
Université Paris-Diderot - Paris VII (05/09/2008), Catherine Fuchs (Dir.)
Liste des fichiers attachés à ce document : 
PDF
phd_apidianaki.pdf(7 MB)
Acquisition automatique de sens pour la désambiguïsation et la sélection lexicale en traduction
Marianna Apidianaki1

Le travail présenté dans cette thèse explore la question de l'acquisition automatique de sens pour la désambiguïsation lexicale dans un cadre de traduction. Partant de l'hypothèse du besoin de conformité des inventaires sémantiques utilisés pour la désambiguïsation dans le cadre d'applications précises, la problématique du repérage des sens se situe dans un cadre bilingue et le traitement s'oriente vers la traduction.
Nous proposons une méthode d'acquisition de sens permettant d'établir des correspondances sémantiques de granularité variable entre les mots de deux langues en relation de traduction. L'induction de sens est effectuée par une combinaison d'informations distributionnelles et traductionnelles extraites d'un corpus bilingue parallèle. La méthode proposée étant à la fois non supervisée et entièrement fondée sur des données, elle est, par conséquent, indépendante de la langue et permet l'élaboration d'inventaires sémantiques relatifs aux domaines représentés dans les corpus traités.
Les résultats de cette méthode sont exploités par une méthode de désambiguïsation lexicale, qui attribue un sens à de nouvelles instances de mots ambigus en contexte, et par une méthode de sélection lexicale, qui propose leur traduction la plus adéquate. On propose finalement une évaluation pondérée des résultats de désambiguïsation et de sélection lexicale, en nous fondant sur l'inventaire construit par la méthode d'acquisition de sens.
1 :  LaTTice - Langues, textes, traitement informatique, cognition
Désambiguïsation lexicale – induction de sens – apprentissage non supervisé – clustering – prédiction de traduction

Automatic sense acquisition for Word Sense Disambiguation and lexical selection in translation
This study explores the question of automatic sense acquisition for Word Sense Disambiguation (WSD) in a translation context. On the basis of the need for conformity of the methods and sense inventories used for disambiguation to the requirements of specific applications, the question of sense identification is situated here in a bilingual context and the processing is oriented towards translation.
A sense induction method is proposed which permits the establishment of semantic correspondences of varying granularity between the words of two languages in translation relation. Sense acquisition is done by combining distributional and translation information extracted from a bilingual parallel corpus. Being unsupervised and fully data-driven, the proposed method is language-independent and enables the elaboration of sense inventories relevant to the domains represented in the corpus.
The results of this method are exploited by a WSD method, which assigns a sense to new instances of ambiguous words in context, and by a lexical selection method, which suggests their most adequate translation. Finally, we provide a weighted evaluation of the disambiguation and lexical selection results which relies on the sense inventory built by the sense induction method.
Word Sense Disambiguation – sense induction – unsupervised learning – clustering – translation prediction