Méthodes de segmentation et d'analyse automatique de textes thaï - TEL - Thèses en ligne Accéder directement au contenu
Thèse Année : 2003

Automated methods of segmentation and analysis of Thai texts

Méthodes de segmentation et d'analyse automatique de textes thaï

Résumé

The aim of this thesis is to design and implement a computational linguistic module for analysing Thai texts under the INTEX © system. Based essentially on Indo-European languages written in the Latin alphabet, INTEX © encounters some difficulties when processing a very different language such as Thai. The crucial problem is word and sentence segmentation, since Thai has no word separator: a sentence is written as a continuous sequence of letters, and sentence separators are frequently ambiguous. Accordingly, we have developed and evaluated two methods of word segmentation, firstly by using Regular Expressions and secondly Finite-State Transducers, which segment Thai texts into letters and syllables respectively. We have also created Thai Electronic Dictionaries, which are used to recognise words from letters or from syllables and, at the same time, to label them with syntactic and semantic tags. Two methods of Thai sentence segmentation, based on punctuation marks and keywords, are also proposed and evaluated. Finally, we demonstrate that, as a result of our work, INTEX © is able to analyse Thai documents in spite of the difficulties involved.
Ce travail de thèse a pour objectif de concevoir et réaliser un module informaticolinguistique apte à effectuer des analyses automatiques de textes thaï sous le système INTEX © . Basé fondamentalement sur les langues indo-européennes écrites avec l'alphabet latin, INTEX © rencontre quelques difficultés pour travailler sur une langue très différente comme le thaï. Le problème crucial est la segmentation en mots et en phrases, étant donné que le thaï n'a pas de séparateur de mot : une phrase est écrite en une séquence de lettres continues, et les séparateurs de phrase sont fréquemment ambigus. Aussi avons-nous développé et évalué deux méthodes de segmentation en mots, par expressions rationnelles et par transducteurs à nombre fini d'états, qui découpent respectivement des textes thaï en lettres et en syllabes. Nous avons également créé les dictionnaires électroniques du thaï qui servent à la fois à reconnaître les mots à partir des lettres ou des syllabes et à les étiqueter avec les codes syntaxiques et sémantiques. Deux méthodes de segmentation en phrases thaï, par la ponctuation et par mots-clés, sont également proposées et évaluées. Nous montrons enfin que, grâce à notre travail, INTEX © est capable d'analyser des documents thaï, malgré toutes les difficultés.
Fichier principal
Vignette du fichier
kosawat1.pdf (2.41 Mo) Télécharger le fichier
kosawat2.pdf (2.57 Mo) Télécharger le fichier
Format : Autre

Dates et versions

tel-00626256 , version 1 (29-09-2011)

Identifiants

  • HAL Id : tel-00626256 , version 1

Citer

Krit Kosawat. Méthodes de segmentation et d'analyse automatique de textes thaï. Autre [cs.OH]. Université Paris-Est, 2003. Français. ⟨NNT : ⟩. ⟨tel-00626256⟩
296 Consultations
4356 Téléchargements

Partager

Gmail Facebook X LinkedIn More