login
english version rss feed
Detailed view PhD thesis
INSA de Lyon (09/07/2010), Jean-François Boulicaut (Dir.)
Available versions:
Attached file list to this document: 
PDF
PhD_thesis_Loic_Cerf_.pdf(3.9 MB)
ANNEX
PhD_thesis_Loic_Cerf_.pdf(5.9 MB)
Fouille Sous Contraintes de Motifs Fermés dans des Relations n-aires Bruitées
Loïc Cerf1

Les jeux de données décrivant des objets par des propriétés Booléennes sont des relations binaires, c'est à dire des matrices 0/1. Dans une telle relation, un ensemble fermé est un sous-ensemble maximal d'objets partageant le même sous-ensemble maximal de propriétés. L'extraction de ces motifs, satisfaisant des contraintes de pertinences définies par l'utilisateur, a été étudiée en profondeur. Néanmoins, beaucoup de jeux de données sont des relations n-aires, c'est à dire des tenseurs 0/1. Réduire leur analyse à deux dimensions revient à en ignorer d'autres qui sont potentiellement intéressantes. Par ailleurs, la présence de bruit dans les jeux de données réelles conduit à la fragmentation des motifs à découvrir. On généralise facilement la définition d'un ensemble fermé aux relations de plus grande arité et à la tolérance au bruit. Au contraire, généraliser leur extraction est très difficile. Notre extracteur parcourt l'espace des motifs candidats d'une façon originale qui ne favorise aucune dimension. Cette recherche peut être guidée par une très grande classe de contraintes de pertinence que les motifs doivent satisfaire. En particulier, cette thèse étudie des contraintes spécifiques à la fouille de graphes dynamiques. Notre extracteur est plusieurs ordres de grandeurs plus efficace que les algorithmes existants, pourtant plus restreints dans leurs applications. Malgré ces résultats, une approche exhaustive ne peut souvent pas, en un temps raisonnable, lister des motifs tolérants beaucoup de bruit. Dans ce cas, compléter l'extraction avec une agglomération hiérarchique des motifs permet d'arriver à ses fins.
1:  LIRIS / INRIA Grenoble Rhône-Alpes / INSA Lyon / UCB Lyon - COMBINING
Algorithme – fouille de données – motif – relation n-aire – contrainte – tolérance au bruit – graphe dynamique
http://liris.cnrs.fr/Documents/Liris-4688.pdf

Constraint-Based Mining of Closed Patterns in Noisy n-ary Relations
The datasets describing objects with Boolean properties are binary relations, i.e., 0/1 matrices. In such a relation, a closed itemset a maximal subset of objects sharing the same maximal subset of properties. Efficiently extracting every closed itemset satisfying user-defined relevancy constraints has been extensively studied. Nevertheless, many datasets are n-ary relations, i.e., 0/1 tensors. Reducing their analysis to two dimensions is ignoring potentially interesting additional dimensions. Moreover, the presence of noise in most real-life datasets leads to the fragmentation of the patterns to discover. Generalizing the definition of a closed itemset to make it suit relations of higher arity and tolerate some noise is straightforward. On the contrary, generalizing their extraction is very hard. Our extractor browses the candidate pattern space in an original way that does not favor any dimension. This search can be guided by a very broad class of relevancy constraints the patterns must satisfy. In particular, this thesis studies constraints to specifically mine dynamic graphs. Our extractor is orders of magnitude faster than known competitors, though limited in their applications. Despite these results, such an exhaustive approach often cannot, in a reasonable time, list patterns tolerating much noise. In this case, complementing the extraction with a hierarchical agglomeration of the patterns allows to achieve one's aims.
Algorithm – data-mining – pattern – n-ary relation – constraint – noise-tolerance – dynamic graph

all articles on CCSd database...
all articles on CCSd database...
all articles on CCSd database...
all articles on CCSd database...
all articles on CCSd database...