A regularized approach of instances x variables co-clustering for exploratory data analysis

Aichetou Bouchareb

Résumé

Co-clustering is a class of unsupervised data analysis techniques aiming at extracting the underlying dependency structure between the rows and columns of a data table in the form of homogeneous blocks, known as co-clusters. These techniques can be distinguished into those that aim at simultaneously clustering the instances and variables, and those that aim at clustering the values of two or more variables of a data set. Most of these techniques are limited to variables of the same type, and are hardly scalable to large data sets while providing easily interpretable clusters and co-clusters. Among the existing value based co-clustering approaches, MODL is suitable for processing large data sets with several numerical or categorical variables. In this thesis, we propose a value based approach, inspired by MODL, to perform a simultaneous clustering of the instances and variables of a data set with potentially mixed-type variables. The proposed co-clustering model provides a Maximum A Posteriori based summary of the data that can be used as it is for exploratory analysis of the data. When the summary is large, exploratory analysis tools, such as model coarsening, can be used to simplify the co-clustering which facilitates the interpretation of the results. We show that the proposed co-clustering approach can handle large data and extract easily interpretable clusters from mixed data with more than 10 millions observations. We also show the robustness of the approach, its capacity to extract inter-dependence between the variables, and its good behavior in extreme cases such as in the case of pattern-less data and in the case of perfectly correlated variables.

Le co-clustering est une classe de techniques d'analyse non supervisée visant à extraire la structure sous-jacente de dépendance entre les lignes et les colonnes d'un tableau de données sous la forme de blocs homogènes, appelés co-clusters. Ces techniques peuvent être différenciées en deux types: celles qui effectuent un groupement simultané des instances et des variables d'une matrice de données, et celles qui effectuent un groupement des valeurs de deux ou plusieurs variables. Toutefois, la plupart de ces méthodes se limitent à des variables du même type et sont difficilement adaptables à des bases de données de grande taille, tout en fournissant des clusters facilement interprétables. Parmi les méthodes basées sur la classification des valeurs, MODL permet de traiter des données de grande taille et de réaliser une partition de plusieurs variables, numériques et/ou catégorielles. Dans cette thèse, nous proposons une approche de classification croisée, inspirée de MODL et basée sur le groupement des valeurs, pour effectuer un groupement simultané des instances et des variables d'un ensemble de données contenant des variables potentiellement de type mixte. Le modèle proposé est basé sur l'estimation par Maximum A Posteriori et fournit un résumé de la base de données, exploitable pour l'analyse exploratoire. Lorsque ce résumé est très grand, des outils d'analyse exploratoire, comme la fusion successive des clusters, peuvent être utilisés pour simplifier le co-clustering, ce qui facilite l'interprétation des résultats. Nous montrons que l'approche proposée permet de traiter des données volumineuses et d'extraire des clusters facilement interprétables à partir de données mixtes comportant plus de 10 millions d'observations. Nous montrons également la robustesse de l'approche, sa capacité à extraire l'interdépendance entre les variables, et son bon comportement dans des cas extrêmes comme dans le cas des données sans motifs et dans le cas des variables parfaitement corrélées.

A regularized approach of instances x variables co-clustering for exploratory data analysis

Analyse exploratoire par classification croisée individus x variables selon une approche régularisée

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager