Model-based clustering for categorical and mixed data sets - TEL - Thèses en ligne Accéder directement au contenu
Thèse Année : 2014

Model-based clustering for categorical and mixed data sets

Modèles de mélange pour la classification non supervisée de données qualitatives et mixtes.

Résumé

RESUME : This work is our contribution to the cluster analysis of categorical and mixed data. The methods proposed in this manuscript modelize the data distribution in a probabilistic framework. When the data are categorical or mixed, the classical model assumes the independence between the variables conditionally on class. However, this approach is biased when the variables are intra-class correlated. The aim of this thesis is to study and to present some mixture models which relax the conditional independence assumption. Moreover, they have to summarize each class with few characteristic parameters. The first part of this manuscript is devoted to the cluster analysis of categorical data. The categorical variables are difficult to cluster since they leave the statistician facing with many combinatorial challenges. In this context, our contribution consists in two parsimonious mixture models which allow to cluster categorical data presenting intra-class dependencies. The main idea of these models is to group the variables into conditionally independent blocks. By setting specific distributions for these blocks, both models consider the intra-class dependencies between the variables. The first approach modelizes the block distribution by a mixture of two extreme dependency distributions while the second approach modelizes it by a multinomial distribution per modes. The study of the cluster analysis of mixed data sets is the second objective of this work. The challenge is due to the lack of classical distributions for mixed variables. Thus, we defined a probabilistic model respecting two main constraints. Firstly, the one-dimensional margin distributions of the components are classical for each variables. Secondly, the model characterizes the main intra-class dependencies. This model is defined as a mixture of Gaussian copulas. The Bayesian inference is performed via a Gibbs sampler. The classical information criteria (BIC, ICL) permit to perform the model selection.
Cette thèse propose une contribution originale pour la classification non supervisée de données qualitatives ou de données mixtes. Les approches proposées sont à base de modèles probabilistes ayant pour but de modéliser la distribution des données observées. Dans les cas de données qualitatives ou mixtes, il est d'usage de supposer l'indépendance entre les variables conditionnellement à la classe. Cependant, cette approche s'avère biaisée lorsque l'hypothèse d'indépendance conditionnelle est erronée. L'objet de cette thèse est d'étudier et de proposer des modèles relâchant l'hypothèse d'indépendance conditionnelle. Ceux-ci doivent permettre de résumer chaque classe par quelques paramètres significatifs. La première partie de cette thèse porte sur la classification non supervisée de données qualitatives. Lorsque ces données sont corrélées au sein des classes, le statisticien est confronté à de nombreux problèmes combinatoires (grand nombre de paramètres et choix de modèle complexe). Notre approche consiste à relâcher l'hypothèse d'indépendance conditionnelle en regroupant les variables en blocs conditionnellement indépendants. Cette méthode nous amène à présenter deux modèles probabilistes. Ceux-ci définissent la distribution d'un bloc de manière à limiter le nombre de paramètres du modèle tout en fournissant un modèle facilement interprétable. Le premier modélise la distribution d'un bloc de variables par le mélange des deux distributions de dépendances extrêmes tandis que le second modèle utilise une distribution multinomiale par modes. La seconde partie de cette thèse porte sur la classification non supervisée de données mixtes. La difficulté spécifique à de telle données est due à l'absence de distribution de référence pour le cas de variables de différentes natures. Ainsi, on souhaite définir un modèle probabiliste respectant les deux contraintes suivantes. Tout d'abord, les distributions marginales de chacune des composantes doivent être des distributions classiques afin de faciliter l'interprétation du modèle. De plus, le modèle doit permettre de caractériser les dépendances intra-classes par quelques paramètres significatifs. Ce cahier des charges nous amène naturellement à utiliser la théorie des copules. Ainsi, nous proposons un modèle de mélange de copules gaussiennes que nous considérons comme la contribution majeure de cette thèse. Pour ce modèle, nous effectuons une inférence bayésienne à partir d'un échantillonneur de Gibbs. Les critères d'information classiques (BIC, ICL), nous permettent de répondre aux problématiques de choix de modèles.
Fichier principal
Vignette du fichier
these.pdf (2.5 Mo) Télécharger le fichier
Loading...

Dates et versions

tel-01076418 , version 1 (22-10-2014)

Identifiants

  • HAL Id : tel-01076418 , version 1

Citer

Matthieu Marbac-Lourdelle. Model-based clustering for categorical and mixed data sets. Statistics [math.ST]. université lille 1, 2014. English. ⟨NNT : ⟩. ⟨tel-01076418⟩
666 Consultations
744 Téléchargements

Partager

Gmail Facebook X LinkedIn More