A regularized approach of instances x variables co-clustering for exploratory data analysis

Résumé : Le co-clustering est une classe de techniques d'analyse non supervisée visant à extraire la structure sous-jacente de dépendance entre les lignes et les colonnes d'un tableau de données sous la forme de blocs homogènes, appelés co-clusters. Ces techniques peuvent être différenciées en deux types: celles qui effectuent un groupement simultané des instances et des variables d'une matrice de données, et celles qui effectuent un groupement des valeurs de deux ou plusieurs variables. Toutefois, la plupart de ces méthodes se limitent à des variables du même type et sont difficilement adaptables à des bases de données de grande taille, tout en fournissant des clusters facilement interprétables. Parmi les méthodes basées sur la classification des valeurs, MODL permet de traiter des données de grande taille et de réaliser une partition de plusieurs variables, numériques et/ou catégorielles. Dans cette thèse, nous proposons une approche de classification croisée, inspirée de MODL et basée sur le groupement des valeurs, pour effectuer un groupement simultané des instances et des variables d'un ensemble de données contenant des variables potentiellement de type mixte. Le modèle proposé est basé sur l'estimation par Maximum A Posteriori et fournit un résumé de la base de données, exploitable pour l'analyse exploratoire. Lorsque ce résumé est très grand, des outils d'analyse exploratoire, comme la fusion successive des clusters, peuvent être utilisés pour simplifier le co-clustering, ce qui facilite l'interprétation des résultats. Nous montrons que l'approche proposée permet de traiter des données volumineuses et d'extraire des clusters facilement interprétables à partir de données mixtes comportant plus de 10 millions d'observations. Nous montrons également la robustesse de l'approche, sa capacité à extraire l'interdépendance entre les variables, et son bon comportement dans des cas extrêmes comme dans le cas des données sans motifs et dans le cas des variables parfaitement corrélées.
Type de document :
Thèse
Mathematics [math]. Université Paris 1 Panthéon-La Sorbonne, 2018. English
Liste complète des métadonnées

https://hal.archives-ouvertes.fr/tel-01979698
Contributeur : Aichetou Bouchareb <>
Soumis le : dimanche 13 janvier 2019 - 18:52:48
Dernière modification le : mercredi 23 janvier 2019 - 01:17:12

Fichier

Manuscript_Thèse_Aichetou_Bou...
Fichiers produits par l'(les) auteur(s)

Identifiants

  • HAL Id : tel-01979698, version 1

Collections

Citation

Aichetou Bouchareb. A regularized approach of instances x variables co-clustering for exploratory data analysis. Mathematics [math]. Université Paris 1 Panthéon-La Sorbonne, 2018. English. 〈tel-01979698〉

Partager

Métriques

Consultations de la notice

17

Téléchargements de fichiers

20