Skip to Main content Skip to Navigation
Theses

Graphes linguistiques multiniveau pour l'extraction de connaissances : l'exemple des collocations

Résumé : Pour modéliser au mieux les phénomènes linguistiques dans les systèmes de traitement automatique des langues (traduction, analyse, etc.), il faut disposer de ressources de qualité. Or, les ressources existantes sont souvent incomplètes et ne permettent pas de traiter correctement les données. Cette thèse s'intéresse à l'acquisition de connaissances linguistiques, plus précisément à leur extraction à partir de corpus. Nous étudions en particulier le problème des collocations, ces couples de termes dont l'un est choisi en fonction de l'autre pour exprimer un sens particulier (comme " pluie battante " où " pluie " exprime l'intensification). Pour permettre l'acquisition de données à grande échelle, il faut la rendre facile à réaliser de manière automatique, et simple à paramétrer par des linguistes aux connaissances limitées en programmation ; cela nécessite une modélisation adaptée et précise des données et des processus. Nous avons réalisé et décrivons MuLLinG, modèle de graphes linguistiques multiniveau, où chaque niveau représente l'information d'une manière différente,et les opérations de manipulation de ces graphes. Ce modèle permet de représenter et traiter divers types de ressources. En effet, les opérations associées ont été écrites pour être les plus génériques possibles : elles sont indépendantes de ce que peuvent représenter les nœuds et les arcs du graphe, et de la tâche à réaliser. Cela permet à notre modèle, mis en œuvre et utilisé pour plusieurs expérimentations (entre autres l'extraction de collocations), de voir un processus parfois complexe d'extraction de connaissances linguistiques comme une succession d'opérations simples de manipulation de graphes.
Document type :
Theses
Complete list of metadatas

https://tel.archives-ouvertes.fr/tel-00426517
Contributor : Vincent Archer <>
Submitted on : Monday, October 26, 2009 - 3:16:43 PM
Last modification on : Friday, July 17, 2020 - 11:10:26 AM
Document(s) archivé(s) le : Thursday, June 17, 2010 - 6:09:26 PM

Identifiers

  • HAL Id : tel-00426517, version 1

Collections

Citation

Vincent Archer. Graphes linguistiques multiniveau pour l'extraction de connaissances : l'exemple des collocations. Informatique [cs]. Université Joseph-Fourier - Grenoble I, 2009. Français. ⟨tel-00426517⟩

Share

Metrics

Record views

503

Files downloads

1185