Finding homogeneous collections of dense subgraphs using constraint-based data mining approaches

Pierre-Nicolas Mougel 1, 2
2 BEAGLE - Artificial Evolution and Computational Biology
LIRIS - Laboratoire d'InfoRmatique en Image et Systèmes d'information, Inria Grenoble - Rhône-Alpes, LBBE - Laboratoire de Biométrie et Biologie Evolutive, CarMeN - Laboratoire de recherche en cardiovasculaire, métabolisme, diabétologie et nutrition
Résumé : Ce travail de thèse concerne la fouille de données sur des graphes attribués. Il s'agit de graphes dans lesquels des propriétés, encodées sous forme d'attributs, sont associées à chaque sommet. Notre objectif est la découverte, dans ce type de données, de sous-graphes organisés en plusieurs groupes de sommets fortement connectés et homogènes au regard des attributs. Plus précisément, nous définissons l'extraction sous contraintes d'ensembles de sous-graphes densément connectés et tels que les sommets partagent suffisamment d'attributs. Pour cela nous proposons deux familles de motifs originales ainsi que les algorithmes justes et complets permettant leur extraction efficace sous contraintes. La première famille, nommée Ensembles Maximaux de Cliques Homogènes, correspond à des motifs satisfaisant des contraintes concernant le nombre de sous-graphes denses, la taille de ces sous-graphes et le nombre d'attributs partagés. La seconde famille, nommée Collections Homogènes de k-cliques Percolées emploie quant à elle une notion de densité plus relaxée permettant d'adapter la méthode aux données avec des valeurs manquantes. Ces deux méthodes sont appliquées à l'analyse de deux types de réseaux, les réseaux de coopérations entre chercheurs et les réseaux d'interactions de protéines. Les motifs obtenus mettent en évidence des structures utiles dans un processus de prise de décision. Ainsi, dans un réseau de coopérations entre chercheurs, l'analyse de ces structures peut aider à la mise en place de collaborations scientifiques entre des groupes travaillant sur un même domaine. Dans le contexte d'un graphe de protéines, les structures exhibées permettent d'étudier les relations entre des modules de protéines intervenant dans des situations biologiques similaires. L'étude des performances en fonction de différentes caractéristiques de graphes attribués réels et synthétiques montre que les approches proposées sont utilisables sur de grands jeux de données.
Liste complète des métadonnées

Littérature citée [95 références]  Voir  Masquer  Télécharger

https://tel.archives-ouvertes.fr/tel-00858751
Contributeur : Christophe Rigotti <>
Soumis le : vendredi 6 septembre 2013 - 08:10:10
Dernière modification le : mardi 23 mai 2017 - 11:24:11
Document(s) archivé(s) le : samedi 7 décembre 2013 - 04:16:06

Identifiants

  • HAL Id : tel-00858751, version 1

Collections

Citation

Pierre-Nicolas Mougel. Finding homogeneous collections of dense subgraphs using constraint-based data mining approaches. Data Structures and Algorithms [cs.DS]. INSA de Lyon, 2012. English. 〈tel-00858751〉

Partager

Métriques

Consultations de
la notice

383

Téléchargements du document

634