Le dictionnaire électronique des séquences nominales figées en coréen et de leurs formes fléchies - méthodes et applications - TEL - Thèses en ligne Accéder directement au contenu
Thèse Année : 2002

Le dictionnaire électronique des séquences nominales figées en coréen et de leurs formes fléchies - méthodes et applications

Résumé

This work aims to present methods of construction of electronic dictionaries frozen nominal sequences of Korean and their inflected forms, and to justify their validity by applying our dictionary in applied fields of automatic analysis of Korean text. To the recognition sequences nominal fixed dictionary, we have classified them into three categories according to the typographical conventions: names compact (NC), optional names fixed-width (NFF) and frozen at names required separation (NFO). As of inflected forms of fixed nominal sequences appear in Korean texts, we have built on the one hand, an electronic dictionary of 45,000 entries in NFF and on the other hand, a transducer sequences nominal postpositions with their segmentation, and finally merged these two data sets from inflectional codes associated with each input and function of bending INTEX. Our dictionary constructed from these methods has the following advantages over existing systems: 1) The dictionary of inflected forms of NFF allows the automatic recognition of all variants of space-related NFF 2) The dictionary of inflected forms NFF allows the segmentation of the inflected forms of a NFF NFF and a sequence of nominal postpositions 3) The dictionary of sequences nominal postpositions as graphs allows segmentation into their nominal postpositions 4) The dictionary of NFF is the segmentation of the sequences free nominal welded 5) The dictionary of NFF can be extended in a bilingual dictionary for machine translation 6) Each entry in the dictionary codes NFF has useful applications in the automatic processing: a semantic feature code indicating the status of name predicative head the name of each entry, the origin and the part of speech.
Ce travail vise à présenter des méthodes de construction des dictionnaires électroniques de séquences nominales figées du coréen et de leurs formes fléchies, et à justifier leur validité en appliquant notre dictionnaire dans les domaines appliqués de l'analyse automatique de textes coréens. En vue de la reconnaissance des séquences nominales figées par dictionnaire, nous avons classé celles-ci en trois catégories selon les conventions typographiques : noms compacts (NC), noms figés à espacement facultatif (NFF) et noms figés à espacement obligatoire (NFO). Puisque des formes fléchies des séquences nominales figées apparaissent dans les textes coréens, nous avons construit, d'une part, un dictionnaire électronique des NFF à 45000 entrées et d'autre part, un transducteur des séquences de postpositions nominales avec leur segmentation, et enfin fusionné ces deux ensembles de données à partir de codes flexionnels associés à chaque entrée et de la fonctionnalité de flexion d'INTEX. Notre dictionnaire construit d'après ces méthodes a les principaux avantages suivants par rapport aux systèmes préexistants : 1) Le dictionnaire des formes fléchies de NFF permet la reconnaissance automatique de toutes les variantes de NFF liées à l'espacement 2) Le dictionnaire des formes fléchies de NFF permet la segmentation des formes fléchies des NFF en un NFF et une séquence de postpositions nominales 3) Le dictionnaire des séquences de postpositions nominales sous forme de graphes permet leur segmentation en postpositions nominales 4) Le dictionnaire des NFF sert à la segmentation des séquences nominales libres soudées 5) Le dictionnaire des NFF peut être étendu en un dictionnaire bilingue pour la traduction automatique 6) Chaque entrée du dictionnaire de NFF comporte des codes utiles pour les applications dans le traitement automatique : codes indiquant un trait sémantique, le statut de nom prédicatif, le nom tête de chaque entrée, l'origine et la catégorie grammaticale.
Fichier principal
Vignette du fichier
bae.pdf (2.38 Mo) Télécharger le fichier
Loading...

Dates et versions

tel-00627610 , version 1 (29-09-2011)

Identifiants

  • HAL Id : tel-00627610 , version 1

Citer

Sun-Mee Bae. Le dictionnaire électronique des séquences nominales figées en coréen et de leurs formes fléchies - méthodes et applications. Autre [cs.OH]. Université Paris-Est, 2002. Français. ⟨NNT : ⟩. ⟨tel-00627610⟩
257 Consultations
507 Téléchargements

Partager

Gmail Facebook X LinkedIn More