Graphes linguistiques multiniveau pour l'extraction de connaissances : l'exemple des collocations

Résumé : Pour modéliser au mieux les phénomènes linguistiques dans les systèmes de traitement automatique des langues (traduction, analyse, etc.), il faut disposer de ressources de qualité. Or, les ressources existantes sont souvent incomplètes et ne permettent pas de traiter correctement les données. Cette thèse s'intéresse à l'acquisition de connaissances linguistiques, plus précisément à leur extraction à partir de corpus. Nous étudions en particulier le problème des collocations, ces couples de termes dont l'un est choisi en fonction de l'autre pour exprimer un sens particulier (comme " pluie battante " où " pluie " exprime l'intensification). Pour permettre l'acquisition de données à grande échelle, il faut la rendre facile à réaliser de manière automatique, et simple à paramétrer par des linguistes aux connaissances limitées en programmation ; cela nécessite une modélisation adaptée et précise des données et des processus. Nous avons réalisé et décrivons MuLLinG, modèle de graphes linguistiques multiniveau, où chaque niveau représente l'information d'une manière différente,et les opérations de manipulation de ces graphes. Ce modèle permet de représenter et traiter divers types de ressources. En effet, les opérations associées ont été écrites pour être les plus génériques possibles : elles sont indépendantes de ce que peuvent représenter les nœuds et les arcs du graphe, et de la tâche à réaliser. Cela permet à notre modèle, mis en œuvre et utilisé pour plusieurs expérimentations (entre autres l'extraction de collocations), de voir un processus parfois complexe d'extraction de connaissances linguistiques comme une succession d'opérations simples de manipulation de graphes.
Type de document :
Thèse
Informatique [cs]. Université Joseph-Fourier - Grenoble I, 2009. Français
Liste complète des métadonnées

https://tel.archives-ouvertes.fr/tel-00426517
Contributeur : Vincent Archer <>
Soumis le : lundi 26 octobre 2009 - 15:16:43
Dernière modification le : jeudi 11 octobre 2018 - 08:48:03
Document(s) archivé(s) le : jeudi 17 juin 2010 - 18:09:26

Identifiants

  • HAL Id : tel-00426517, version 1

Collections

Citation

Vincent Archer. Graphes linguistiques multiniveau pour l'extraction de connaissances : l'exemple des collocations. Informatique [cs]. Université Joseph-Fourier - Grenoble I, 2009. Français. 〈tel-00426517〉

Partager

Métriques

Consultations de la notice

428

Téléchargements de fichiers

852