Constraint-Based Mining of Closed Patterns in Noisy n-ary Relations

Loïc Cerf 1, 2
1 DM2L - Data Mining and Machine Learning
LIRIS - Laboratoire d'InfoRmatique en Image et Systèmes d'information
2 COMBINING - COMputational BIology and data miNING
LIRIS - Laboratoire d'InfoRmatique en Image et Systèmes d'information, Inria Grenoble - Rhône-Alpes
Résumé : Les jeux de données décrivant des objets par des propriétés Booléennes sont des relations binaires, c'est à dire des matrices 0/1. Dans une telle relation, un ensemble fermé est un sous-ensemble maximal d'objets partageant le même sous-ensemble maximal de propriétés. L'extraction de ces motifs, satisfaisant des contraintes de pertinences définies par l'utilisateur, a été étudiée en profondeur. Néanmoins, beaucoup de jeux de données sont des relations n-aires, c'est à dire des tenseurs 0/1. Réduire leur analyse à deux dimensions revient à en ignorer d'autres qui sont potentiellement intéressantes. Par ailleurs, la présence de bruit dans les jeux de données réelles conduit à la fragmentation des motifs à découvrir. On généralise facilement la définition d'un ensemble fermé aux relations de plus grande arité et à la tolérance au bruit. Au contraire, généraliser leur extraction est très difficile. Notre extracteur parcourt l'espace des motifs candidats d'une façon originale qui ne favorise aucune dimension. Cette recherche peut être guidée par une très grande classe de contraintes de pertinence que les motifs doivent satisfaire. En particulier, cette thèse étudie des contraintes spécifiques à la fouille de graphes dynamiques. Notre extracteur est plusieurs ordres de grandeurs plus efficace que les algorithmes existants, pourtant plus restreints dans leurs applications. Malgré ces résultats, une approche exhaustive ne peut souvent pas, en un temps raisonnable, lister des motifs tolérants beaucoup de bruit. Dans ce cas, compléter l'extraction avec une agglomération hiérarchique des motifs permet d'arriver à ses fins.
Type de document :
Thèse
Other [cs.OH]. INSA de Lyon, 2010. English
Liste complète des métadonnées

https://tel.archives-ouvertes.fr/tel-00508534
Contributeur : Loïc Cerf <>
Soumis le : lundi 21 mars 2011 - 20:50:09
Dernière modification le : mercredi 15 février 2017 - 12:20:02
Document(s) archivé(s) le : jeudi 30 mars 2017 - 08:34:58

Identifiants

  • HAL Id : tel-00508534, version 2

Collections

Citation

Loïc Cerf. Constraint-Based Mining of Closed Patterns in Noisy n-ary Relations. Other [cs.OH]. INSA de Lyon, 2010. English. 〈tel-00508534v2〉

Partager

Métriques

Consultations de
la notice

433

Téléchargements du document

494