Skip to Main content Skip to Navigation
Theses

Apprentissage statistique pour l'extraction de concepts à partir de textes : application au filtrage d'informations textuelles

Nicolas Turenne
Résumé : Cette thèse présente un modèle de construction automatique et approximatif de la représentation du sens d'un texte. On adapte des techniques de documentation automatique à des bases documentaires non indexées. Les techniques classiques reposent sur une indexation vectorielle. Chaque document est représenté par un descripteur, on définit une distance entre ces descripteurs. L'accès aux documents pertinents est basé sur des calculs de proximité entre ces descripteurs. Une structuration du domaine, couvert par des documents, est obtenue par une classification (en anglais « clustering ») faisant apparaître des thèmes sémantiques. Il faut améliorer les techniques en leur permettant de traiter les documents non indexés, en améliorant les résultats par une adaptation de connaissances linguistiques et une analyse des relations que marquent les cooccurrences entre termes. La quantité grandissante d'informations électroniques permet de constituer des échantillons de données variés et significatifs. Les techniques pour décrire les relations entre termes sont issues de méthodes mathématiques usuellement appliquées aux données structurées non textuelles. Le couplage de connaissances propres aux données avec une méthodologie adaptée aux données textuelles devrait apporter une amélioration des résultats. Nous tentons de justifier : d'une part l'utilisation de mécanismes linguistiques réduisant les biais d'une statisque descriptive des occurrences d'un terme, d'autre part l'utilisation d'une méthode basée sur les graphes dont les motifs permettraient de récupérer les relations conceptuelles entre termes. Dans un troisième temps nous facilitons l'interprétation des résultats émanant de traitements automatiques par la qualification consensuelle du thème représenté par une classe. L'interprétation de classes reste difficile, due aux multiples points de vue qu'un lecteur peut se faire des associations entre termes. Des classes de meilleure qualité facilitent l'interprétation, assistée par un théssaurus, que l'on peut attribuer à la structuration conceptuelle des termes d'un domaine. Le développement d'Internet renforce l'échange de documents électroniques entre les acteurs de différents sites. Le développement de systèmes logiciels d'échanges de documents appelés « workflow » dans les intranets d'entreprise augmente la fluidité des documents entre individus et entre services. Un système qui permet d'apprendre automatiquement des profils d'utilisateur et d'exploiter ces connaissances pour distribuer l'information semble incontournable. Nous essayons de caractériser un centre d'intérêt par des classes de termes.
Document type :
Theses
Domain :
Complete list of metadata

Cited literature [55 references]  Display  Hide  Download

https://tel.archives-ouvertes.fr/tel-00006210
Contributor : Marie-France Claerebout <>
Submitted on : Friday, June 4, 2004 - 5:57:54 PM
Last modification on : Monday, October 19, 2020 - 11:00:03 AM
Long-term archiving on: : Friday, April 2, 2010 - 8:53:13 PM

Identifiers

  • HAL Id : tel-00006210, version 1

Citation

Nicolas Turenne. Apprentissage statistique pour l'extraction de concepts à partir de textes : application au filtrage d'informations textuelles. domain_stic.gest. Université Louis Pasteur - Strasbourg I, 2000. Français. ⟨tel-00006210⟩

Share

Metrics

Record views

611

Files downloads

15486