Fouille de Textes : de l'extraction des descripteurs linguistiques à leur induction

Mathieu Roche 1
1 TEXTE - Exploration et exploitation de données textuelles
LIRMM - Laboratoire d'Informatique de Robotique et de Microélectronique de Montpellier
Résumé : Les masses de données textuelles aujourd'hui disponibles engendrent un problème difficile lié à leur traitement automatique. Dans ce cadre, des méthodes de Fouille de Textes (FT) et de Traitement Automatique du Langage (TAL) peuvent, en partie, répondre à une telle problématique. Elles consistent à modéliser puis mettre en œuvre des méthodologies appliquées aux données textuelles afin d'en déterminer le sens et/ou découvrir des connaissances nouvelles. Dans ce processus, le descripteur linguistique constitue un élément pivot. Après une présentation des méthodes de traitement des descripteurs en eux-mêmes, ces derniers seront étudiés en contexte, c'est-à-dire en corpus. L'identification des descripteurs est souvent difficile à partir de corpus bruités et à faible contenu textuel sur lesquels nous concentrons nos efforts (par exemple, corpus issus du Web 2.0 ou du traitement OCR). Outre les mots considérés comme des descripteurs linguistiques pertinents en FT, nous nous sommes également intéressés à l'étude des syntagmes complexes à partir de corpus classiques puis d'une terminologie classique à partir de corpus complexes (par exemple, données logs ou corpus en français médiéval). Dans la suite, les syntagmes étudiés ne se situent plus à proprement parler dans les textes mais ils seront induits à partir des mots issus des corpus. Les méthodes proposées permettent de mettre en relief des syntagmes originaux tout à fait utiles pour l'identification d'Entités Nommées, le titrage automatique ou la construction de classes conceptuelles. Contrairement au raisonnement déductif, le raisonnement inductif est dit hypothétique. Dans ce cadre, l'utilisation de méthodes de validation automatique des relations induites par le biais d'approches de Fouille du Web se révèle déterminant. Les perspectives à ce travail se concentreront sur l'extraction de nouveaux descripteurs. Ces derniers seront associés à de nouvelles représentations sous forme d'entrepôts de données textuelles. Enfin, les travaux que nous souhaitons développer se focaliseront sur l'analyse des textes dans un contexte plus vaste lié au multimédia que le paradigme du Web 2.0 a mis en exergue ces dernières années.
Type de document :
HDR
Recherche d'information [cs.IR]. Université Montpellier II - Sciences et Techniques du Languedoc, 2011
Liste complète des métadonnées

Littérature citée [168 références]  Voir  Masquer  Télécharger

https://tel.archives-ouvertes.fr/tel-00816263
Contributeur : Mathieu Roche <>
Soumis le : dimanche 21 avril 2013 - 10:31:00
Dernière modification le : jeudi 24 mai 2018 - 15:59:23
Document(s) archivé(s) le : lundi 3 avril 2017 - 08:02:14

Fichier

Identifiants

  • HAL Id : tel-00816263, version 1

Collections

Citation

Mathieu Roche. Fouille de Textes : de l'extraction des descripteurs linguistiques à leur induction. Recherche d'information [cs.IR]. Université Montpellier II - Sciences et Techniques du Languedoc, 2011. 〈tel-00816263〉

Partager

Métriques

Consultations de la notice

542

Téléchargements de fichiers

1922