Outils d'exploration de corpus et désambiguïsation lexicale automatique - TEL - Thèses en ligne Accéder directement au contenu
Thèse Année : 2003

Outils d'exploration de corpus et désambiguïsation lexicale automatique

Résumé

This thesis deals with automatic word sense disambiguation using supervised learning methods. In the first part, we present a set of powerful tools for processing tagged linguistic corpora. To produce these tools, we developed a C++ library that implements an expressive and elaborate corpus-query language, based on meta-regular expressions. In the second part, we compare various supervised learning algorithms. We then use them to perform a systematic and in-depth study of various disambiguation criteria based on word co-occurrence, and more generally on n-gram co-occurrence. Our results are not always in line with some practices in the field. For example, we show that omitting grammatical words decreases performance and that bigrams yield better results than unigrams.
Ce travail de thèse adresse le problème de la désambiguïsation lexicale automatique à l'aide de méthodes d'apprentissage supervisé. Dans une première partie, nous proposons un ensemble de puissants outils de manipulation de corpus linguistiques étiquetés. Pour réaliser ces outils, nous avons développé une bibliothèque C++ qui implémente un langage élaboré et expressif d'interrogation de corpus, basé sur des méta-expressions régulières. Dans une seconde partie, nous comparons divers algorithmes d'apprentissage supervisé, que nous utilisons ensuite pour mener à bien une étude systématique et approfondie de différents critères de désambiguïsation, basés sur la cooccurrence de mots et plus généralement de n-grammes. Nos résultats vont parfois à l'encontre de certaines pratiques dans le domaine. Par exemple, nous montrons que la suppression des mots grammaticaux dégrade les performances et que les bigrammes permettent d'obtenir de meilleurs résultats que les unigrammes.
Fichier principal
Vignette du fichier
tel-00004475.pdf (13.34 Mo) Télécharger le fichier

Dates et versions

tel-00004475 , version 1 (04-02-2004)

Identifiants

  • HAL Id : tel-00004475 , version 1

Citer

Laurent Audibert. Outils d'exploration de corpus et désambiguïsation lexicale automatique. Autre [cs.OH]. Université de Provence - Aix-Marseille I, 2003. Français. ⟨NNT : ⟩. ⟨tel-00004475⟩

Collections

UNIV-AMU
326 Consultations
912 Téléchargements

Partager

Gmail Facebook X LinkedIn More