Constraint-Based Mining of Closed Patterns in Noisy n-ary Relations - TEL - Thèses en ligne Accéder directement au contenu
Thèse Année : 2010

Constraint-Based Mining of Closed Patterns in Noisy n-ary Relations

Fouille Sous Contraintes de Motifs Fermés dans des Relations n-aires Bruitées

Loïc Cerf
  • Fonction : Auteur
  • PersonId : 874664

Résumé

The datasets describing objects with Boolean properties are binary relations, i.e., 0/1 matrices. In such a relation, a closed itemset a maximal subset of objects sharing the same maximal subset of properties. Efficiently extracting every closed itemset satisfying user-defined relevancy constraints has been extensively studied. Nevertheless, many datasets are n-ary relations, i.e., 0/1 tensors. Reducing their analysis to two dimensions is ignoring potentially interesting additional dimensions. Moreover, the presence of noise in most real-life datasets leads to the fragmentation of the patterns to discover. Generalizing the definition of a closed itemset to make it suit relations of higher arity and tolerate some noise is straightforward. On the contrary, generalizing their extraction is very hard. Our extractor browses the candidate pattern space in an original way that does not favor any dimension. This search can be guided by a very broad class of relevancy constraints the patterns must satisfy. In particular, this thesis studies constraints to specifically mine dynamic graphs. Our extractor is orders of magnitude faster than known competitors, though limited in their applications. Despite these results, such an exhaustive approach often cannot, in a reasonable time, list patterns tolerating much noise. In this case, complementing the extraction with a hierarchical agglomeration of the patterns allows to achieve one's aims.
Les jeux de données décrivant des objets par des propriétés Booléennes sont des relations binaires, c'est à dire des matrices 0/1. Dans une telle relation, un ensemble fermé est un sous-ensemble maximal d'objets partageant le même sous-ensemble maximal de propriétés. L'extraction de ces motifs, satisfaisant des contraintes de pertinences définies par l'utilisateur, a été étudiée en profondeur. Néanmoins, beaucoup de jeux de données sont des relations n-aires, c'est à dire des tenseurs 0/1. Réduire leur analyse à deux dimensions revient à en ignorer d'autres qui sont potentiellement intéressantes. Par ailleurs, la présence de bruit dans les jeux de données réelles conduit à la fragmentation des motifs à découvrir. On généralise facilement la définition d'un ensemble fermé aux relations de plus grande arité et à la tolérance au bruit. Au contraire, généraliser leur extraction est très difficile. Notre extracteur parcourt l'espace des motifs candidats d'une façon originale qui ne favorise aucune dimension. Cette recherche peut être guidée par une très grande classe de contraintes de pertinence que les motifs doivent satisfaire. En particulier, cette thèse étudie des contraintes spécifiques à la fouille de graphes dynamiques. Notre extracteur est plusieurs ordres de grandeurs plus efficace que les algorithmes existants, pourtant plus restreints dans leurs applications. Malgré ces résultats, une approche exhaustive ne peut souvent pas, en un temps raisonnable, lister des motifs tolérants beaucoup de bruit. Dans ce cas, compléter l'extraction avec une agglomération hiérarchique des motifs permet d'arriver à ses fins.
Fichier principal
Vignette du fichier
PhD_thesis_Loic_Cerf_.pdf (3.41 Mo) Télécharger le fichier
PhD_thesis_Loic_Cerf_presentation.pdf (5.81 Mo) Télécharger le fichier
Format : Autre

Dates et versions

tel-00508534 , version 1 (04-08-2010)
tel-00508534 , version 2 (21-03-2011)

Identifiants

  • HAL Id : tel-00508534 , version 1

Citer

Loïc Cerf. Constraint-Based Mining of Closed Patterns in Noisy n-ary Relations. Other [cs.OH]. INSA de Lyon, 2010. English. ⟨NNT : ⟩. ⟨tel-00508534v1⟩
370 Consultations
573 Téléchargements

Partager

Gmail Facebook X LinkedIn More