Extraction et usages de motifs minimaux en fouille de données, contribution au domaine des hypergraphes - TEL - Thèses en ligne Accéder directement au contenu
Thèse Année : 2007

Extraction et usages de motifs minimaux en fouille de données, contribution au domaine des hypergraphes

Résumé

Pattern discovery is a significant field of knowledge discovery in databases. This work deals with mining and using minimal generators (also called free or key patterns). First, we propose an efficient algorithm for mining &-free patterns in large databases. This is a difficult task due to the huge search space.
We presents a new approach based on pattern extension and a new pruning criterion. Second, we provide a unified view of objective interestingness measures. We design a framework capturing the main features of interestingness measures and we prove that a large set of usual measures, called SBMs behave in a similar way. We also give an algorithm to efficiently mine non-redundant rules simultaneously optimizing all the SBMs by using the free patterns. Finally, we deepen the relationship between data mining and hypergraph. We show how to exploit the key ideas of our extension-based method for efficiently computing the minimal transversals of a hypergraph which is know as a very hard problem. Experiments prove that our methods are very efficient in practice and useful for various applications.
La découverte et l'interprétation de motifs et de règles sont deux tâches centrales en extraction de connaissances dans les bases de données. Cette thèse traite de l'extraction et des usages de motifs minimaux à la fois en fouille de données et dans le domaine des hypergraphes. D'une part, nous proposons une méthode efficace pour la découverte de motifs delta-libres dans les données larges, malgré les difficultés algorithmiques inhérentes à ce type de données. Cette méthode repose sur l'utilisation de l'extension des motifs et d'un nouveau critère d'élagage. D'autre part, nous nous intéressons à la qualité des règles d'associations et nous présentons un cadre générique qui permet de mieux comprendre les similarités et différences entre mesures. Il montre que de nombreuses mesures (appelées SBMs pour Simultaneously Bounded Measures) ont des comportements proches. Ce résultat permet de garantir des valeurs minimales pour toutes les SBMs et la production de règles de qualité par rapport à l'ensemble de ces mesures. Enfin, l'apport des méthodes de type <> pour d'autres domaines est mis en évidence. Nous montrons que notre approche de découverte de motifs dans les données larges est exploitable pour calculer efficacement les traverses minimales d'un hypergraphe, un problème réputé comme particulièrement difficile. Différentes applications, notamment en biologie, montrent l'intérêt pratique de nos méthodes.
Fichier principal
Vignette du fichier
these_celine_hebert.pdf (1.15 Mo) Télécharger le fichier
Loading...

Dates et versions

tel-00253794 , version 1 (13-02-2008)

Identifiants

  • HAL Id : tel-00253794 , version 1

Citer

Céline Hébert. Extraction et usages de motifs minimaux en fouille de données, contribution au domaine des hypergraphes. Autre [cs.OH]. Université de Caen, 2007. Français. ⟨NNT : ⟩. ⟨tel-00253794⟩
230 Consultations
148 Téléchargements

Partager

Gmail Facebook X LinkedIn More