Recherche de sous-structures arborescentes ordonnées fréquentes au sein de bases de données semi-structurées - TEL - Thèses en ligne Accéder directement au contenu
Thèse Année : 2007

Recherche de sous-structures arborescentes ordonnées fréquentes au sein de bases de données semi-structurées

Recherche de sous-structures arborescentes ordonnées fréquentes au sein de bases de données semi-structurées

Résumé

La recherche de structures arborescentes fréquentes, également appelée fouille d'arbres, au sein de bases de données composées de documents semi-structurés (e.g. XML) est une problématique actuellement très active. Ce processus trouve de nombreux intérêts dans le contexte de la fouille de données comme par exemple la construction automatique d'un schéma médiateur à partir de schémas XML, ou bien l'analyse des structures des sites Web afin d'étudier son usage ou modifier son contenu.

L'objectif de cette thèse est de proposer une méthode d'extraction d'arborescences fréquentes. Cette approche est basée sur une représentation compacte des arborescences cherchant à diminuer la consommation de mémoire dans le processus de fouille. En particulier, nous présentons une nouvelle technique de génération d'arborescences candidates visant à réduire leur nombre. Par ailleurs, nous proposons différents algorithmes pour valider le support des arborescences candidates dans une base de données selon divers types de contraintes d'inclusion d'arbres : induite, incrustée et floue. Finalement nous appliquons nos algorithmes à des jeux de données synthétiques et réels et nous présentons les résultats obtenus.
La recherche de structures arborescentes fréquentes, également appelée fouille d'arbres, au sein de bases de données composées de documents semi-structurés (e.g. XML) est une problématique actuellement très active. Ce processus trouve de nombreux intérêts dans le contexte de la fouille de données comme par exemple la construction automatique d'un schéma médiateur à partir de schémas XML, ou bien l'analyse des structures des sites Web afin d'étudier son usage ou modifier son contenu.

L'objectif de cette thèse est de proposer une méthode d'extraction d'arborescences fréquentes. Cette approche est basée sur une représentation compacte des arborescences cherchant à diminuer la consommation de mémoire dans le processus de fouille. En particulier, nous présentons une nouvelle technique de génération d'arborescences candidates visant à réduire leur nombre. Par ailleurs, nous proposons différents algorithmes pour valider le support des arborescences candidates dans une base de données selon divers types de contraintes d'inclusion d'arbres : induite, incrustée et floue. Finalement nous appliquons nos algorithmes à des jeux de données synthétiques et réels et nous présentons les résultats obtenus.
Fichier principal
Vignette du fichier
Delrazothese2007.pdf (1.14 Mo) Télécharger le fichier

Dates et versions

tel-00203608 , version 1 (10-01-2008)

Identifiants

  • HAL Id : tel-00203608 , version 1

Citer

Federico del Razo Lopez. Recherche de sous-structures arborescentes ordonnées fréquentes au sein de bases de données semi-structurées. Interface homme-machine [cs.HC]. Université Montpellier II - Sciences et Techniques du Languedoc, 2007. Français. ⟨NNT : ⟩. ⟨tel-00203608⟩
189 Consultations
338 Téléchargements

Partager

Gmail Facebook X LinkedIn More