Extraction de Connaissances à partir de Données Numériques et Textuelles

Résumé : Le travail réalisé dans le cadre de cette thèse concerne l'extraction de connaissances dans des données transactionnelles.
L'analyse de telles données est souvent contrainte par la définition d'un support minimal utilisé pour filtrer les connaissances non intéressantes.
Les experts des données ont souvent des difficultés pour déterminer ce support.
Nous avons proposé une méthode permettant de ne pas fixer un support minimal et fondée sur l'utilisation de mesures de qualité.
Nous nous sommes focalisés sur l'extraction de connaissances de la forme "règles d'association".
Ces règles doivent vérifier un ou plusieurs critères de qualité pour être considérées comme intéressantes et proposées à l'expert.
Nous avons proposé deux mesures de qualité combinant différents critères et permettant d'extraire des règles intéressantes.

Nous avons ainsi pu proposer un algorithme permettant d'extraire ces règles sans utiliser la contrainte du support minimal.
Le comportement de notre algorithme a été étudié en présence de données bruitées et nous avons pu mettre en évidence la difficulté d'extraire automatiquement des connaissances fiables à partir de données bruitées.
Une des solutions que nous avons proposée consiste à évaluer la résistance au bruit de chaque règle et d'en informer l'expert lors de l'analyse et de la validation des connaissances obtenues.

Enfin, une étude sur des données réelles a été effectuée dans le cadre d'un processus de fouille de textes.
Les connaissances recherchées dans ces textes sont des règles d'association entre des concepts définis par l'expert et propres au domaine étudié.
Nous avons proposé un outil permettant d'extraire les connaissances et d'assister l'expert lors de la validation de celles-ci.
Les différents résultats obtenus montrent qu'il est possible d'obtenir des connaissances intéressantes à partir de données textuelles en minimisant la sollicitation de l'expert dans la phase d'extraction des règles d'association.
Type de document :
Thèse
Interface homme-machine [cs.HC]. Université Paris Sud - Paris XI, 2003. Français
Liste complète des métadonnées

https://tel.archives-ouvertes.fr/tel-00011196
Contributeur : Jérôme Azé <>
Soumis le : mardi 13 décembre 2005 - 13:15:09
Dernière modification le : mardi 24 avril 2018 - 13:38:56
Document(s) archivé(s) le : samedi 3 avril 2010 - 19:00:20

Fichiers

Identifiants

  • HAL Id : tel-00011196, version 1

Collections

Citation

Jérôme Azé. Extraction de Connaissances à partir de Données Numériques et Textuelles. Interface homme-machine [cs.HC]. Université Paris Sud - Paris XI, 2003. Français. 〈tel-00011196〉

Partager

Métriques

Consultations de la notice

439

Téléchargements de fichiers

1367