login
english version rss feed
Detailed view PhD thesis
Université de Provence - Aix-Marseille I (15/12/2003), Véronis Jean (Dir.)
Attached file list to this document: 
PS
tel-00004475.ps(558 MB)
PDF
tel-00004475.pdf(13.6 MB)
Outils d'exploration de corpus et désambiguïsation lexicale automatique
Laurent AUDIBERT1

Ce travail de thèse adresse le problème de la désambiguïsation lexicale automatique à l'aide de méthodes d'apprentissage supervisé. Dans une première partie, nous proposons un ensemble de puissants outils de manipulation de corpus linguistiques étiquetés. Pour réaliser ces outils, nous avons développé une bibliothèque C++ qui implémente un langage élaboré et expressif d'interrogation de corpus, basé sur des méta-expressions régulières. Dans une seconde partie, nous comparons divers algorithmes d'apprentissage supervisé, que nous utilisons ensuite pour mener à bien une étude systématique et approfondie de différents critères de désambiguïsation, basés sur la cooccurrence de mots et plus généralement de n-grammes. Nos résultats vont parfois à l'encontre de certaines pratiques dans le domaine. Par exemple, nous montrons que la suppression des mots grammaticaux dégrade les performances et que les bigrammes permettent d'obtenir de meilleurs résultats que les unigrammes.
1:  DELIC - DEscription Linguistique Informatisée sur Corpus
Désambiguïsation lexicale automatique – traitement automatique des langues – concordancier – analyseur – expression régulière – corpus lexicalement étiqueté – apprentissage supervisé – cooccurrences – n-grammes

This thesis deals with automatic word sense disambiguation using supervised learning methods. In the first part, we present a set of powerful tools for processing tagged linguistic corpora. To produce these tools, we developed a C++ library that implements an expressive and elaborate corpus-query language, based on meta-regular expressions. In the second part, we compare various supervised learning algorithms. We then use them to perform a systematic and in-depth study of various disambiguation criteria based on word co-occurrence, and more generally on n-gram co-occurrence. Our results are not always in line with some practices in the field. For example, we show that omitting grammatical words decreases performance and that bigrams yield better results than unigrams.
word sense disambiguation – natural language processing – concordancer – parser – regular expression – sense tagged corpora – supervised learning – concurrences – n-grams

all articles on CCSd database...
all articles on CCSd database...
all articles on CCSd database...
all articles on CCSd database...
all articles on CCSd database...