Skip to Main content Skip to Navigation
Theses

Recherche de sous-structures arborescentes ordonnées fréquentes au sein de bases de données semi-structurées

Federico del Razo Lopez 1
1 TATOO - Fouille de données environnementales
LIRMM - Laboratoire d'Informatique de Robotique et de Microélectronique de Montpellier
Abstract : La recherche de structures arborescentes fréquentes, également appelée fouille d'arbres, au sein de bases de données composées de documents semi-structurés (e.g. XML) est une problématique actuellement très active. Ce processus trouve de nombreux intérêts dans le contexte de la fouille de données comme par exemple la construction automatique d'un schéma médiateur à partir de schémas XML, ou bien l'analyse des structures des sites Web afin d'étudier son usage ou modifier son contenu.

L'objectif de cette thèse est de proposer une méthode d'extraction d'arborescences fréquentes. Cette approche est basée sur une représentation compacte des arborescences cherchant à diminuer la consommation de mémoire dans le processus de fouille. En particulier, nous présentons une nouvelle technique de génération d'arborescences candidates visant à réduire leur nombre. Par ailleurs, nous proposons différents algorithmes pour valider le support des arborescences candidates dans une base de données selon divers types de contraintes d'inclusion d'arbres : induite, incrustée et floue. Finalement nous appliquons nos algorithmes à des jeux de données synthétiques et réels et nous présentons les résultats obtenus.
Document type :
Theses
Complete list of metadatas

https://tel.archives-ouvertes.fr/tel-00203608
Contributor : Maguelonne Teisseire <>
Submitted on : Thursday, January 10, 2008 - 3:45:25 PM
Last modification on : Wednesday, September 30, 2020 - 3:57:23 PM
Long-term archiving on: : Tuesday, April 13, 2010 - 4:58:23 PM

Identifiers

  • HAL Id : tel-00203608, version 1

Collections

Citation

Federico del Razo Lopez. Recherche de sous-structures arborescentes ordonnées fréquentes au sein de bases de données semi-structurées. Interface homme-machine [cs.HC]. Université Montpellier II - Sciences et Techniques du Languedoc, 2007. Français. ⟨tel-00203608⟩

Share

Metrics

Record views

276

Files downloads

491