Outils et ressources linguistiques pour l'alignement de textes multilingues français-vietnamiens - TEL - Thèses en ligne Accéder directement au contenu
Thèse Année : 2006

Linguistic tools and resources for the alignment of French-Vietnamese multilingual texts

Outils et ressources linguistiques pour l'alignement de textes multilingues français-vietnamiens

Résumé

The work presented in this document deals with the constitution of linguistic resources and tools for the fundamental tasks of automatic processing of the Vietnamese language, both in monolingual and multilingual contexts. We present possible solutions to the problems of morpho-syntactic annotation (definition of “standardized” lexical descriptors, development of a lexicon with these descriptors, and the tools for word segmentation and part-of-speech tagging), syntactic analysis (first tentative to model the Vietnamese grammar using the TAG formalism, framework to build the language resources needed for parsing), and multilingual alignment (constitution of a multilingual corpus, development of a system for the alignment of multilingual texts). In order to ensure the reusability and extendibility of the built linguistic resources, we have paid a particular attention to the questions of standardization of language resource management.
Le travail présenté dans ce mémoire porte sur la construction des outils et ressources linguistiques pour les tâches fondamentales de traitement automatique de la langue vietnamienne, dans un contexte monolingue ainsi que multilingue. Nous présentons pour cette langue encore peu étudiée des solutions possibles aux problèmes d'annotation morpho-syntaxique (définition de descripteurs lexicaux « de référence », construction d'un lexique avec ces descriptions, des outils de segmentation et d'étiquetage lexical), d'analyse syntaxique (première tentative de modélisation de la grammaire vietnamienne en employant le formalisme TAG, cadre de construction de ressources pour l'analyse syntaxique) et d'alignement multilingue (constitution d'un corpus multilingue, développement d'un système d'alignement multilingue). Afin d'assurer la réutilisabilité des travaux réalisés, et dans l'espoir de les voir stimuler le développement du TAL au Vietnam, nous avons apporté une attention particulière aux questions de normalisation de la gestion des ressources linguistiques.
Fichier principal
Vignette du fichier
these_Nguyen_TM_Huyen.pdf (3.57 Mo) Télécharger le fichier
Loading...

Dates et versions

tel-00105592 , version 1 (11-10-2006)
tel-00105592 , version 2 (19-11-2006)

Identifiants

  • HAL Id : tel-00105592 , version 2

Citer

Thi Minh Huyen Nguyen. Outils et ressources linguistiques pour l'alignement de textes multilingues français-vietnamiens. Interface homme-machine [cs.HC]. Université Henri Poincaré - Nancy I, 2006. Français. ⟨NNT : ⟩. ⟨tel-00105592v2⟩
327 Consultations
3584 Téléchargements

Partager

Gmail Facebook X LinkedIn More