Model-based clustering for categorical and mixed data sets

Matthieu Marbac-Lourdelle 1
1 MODAL - MOdel for Data Analysis and Learning
Inria Lille - Nord Europe, LPP - Laboratoire Paul Painlevé - UMR 8524, CERIM - Santé publique : épidémiologie et qualité des soins-EA 2694, Polytech Lille - École polytechnique universitaire de Lille, Université de Lille, Sciences et Technologies
Résumé : Cette thèse propose une contribution originale pour la classification non supervisée de données qualitatives ou de données mixtes. Les approches proposées sont à base de modèles probabilistes ayant pour but de modéliser la distribution des données observées. Dans les cas de données qualitatives ou mixtes, il est d'usage de supposer l'indépendance entre les variables conditionnellement à la classe. Cependant, cette approche s'avère biaisée lorsque l'hypothèse d'indépendance conditionnelle est erronée. L'objet de cette thèse est d'étudier et de proposer des modèles relâchant l'hypothèse d'indépendance conditionnelle. Ceux-ci doivent permettre de résumer chaque classe par quelques paramètres significatifs. La première partie de cette thèse porte sur la classification non supervisée de données qualitatives. Lorsque ces données sont corrélées au sein des classes, le statisticien est confronté à de nombreux problèmes combinatoires (grand nombre de paramètres et choix de modèle complexe). Notre approche consiste à relâcher l'hypothèse d'indépendance conditionnelle en regroupant les variables en blocs conditionnellement indépendants. Cette méthode nous amène à présenter deux modèles probabilistes. Ceux-ci définissent la distribution d'un bloc de manière à limiter le nombre de paramètres du modèle tout en fournissant un modèle facilement interprétable. Le premier modélise la distribution d'un bloc de variables par le mélange des deux distributions de dépendances extrêmes tandis que le second modèle utilise une distribution multinomiale par modes. La seconde partie de cette thèse porte sur la classification non supervisée de données mixtes. La difficulté spécifique à de telle données est due à l'absence de distribution de référence pour le cas de variables de différentes natures. Ainsi, on souhaite définir un modèle probabiliste respectant les deux contraintes suivantes. Tout d'abord, les distributions marginales de chacune des composantes doivent être des distributions classiques afin de faciliter l'interprétation du modèle. De plus, le modèle doit permettre de caractériser les dépendances intra-classes par quelques paramètres significatifs. Ce cahier des charges nous amène naturellement à utiliser la théorie des copules. Ainsi, nous proposons un modèle de mélange de copules gaussiennes que nous considérons comme la contribution majeure de cette thèse. Pour ce modèle, nous effectuons une inférence bayésienne à partir d'un échantillonneur de Gibbs. Les critères d'information classiques (BIC, ICL), nous permettent de répondre aux problématiques de choix de modèles.
Type de document :
Thèse
Statistics [math.ST]. université lille 1, 2014. English
Liste complète des métadonnées

Littérature citée [2 références]  Voir  Masquer  Télécharger

https://tel.archives-ouvertes.fr/tel-01076418
Contributeur : Matthieu Marbac <>
Soumis le : mercredi 22 octobre 2014 - 10:05:43
Dernière modification le : mercredi 14 novembre 2018 - 14:40:11
Document(s) archivé(s) le : vendredi 23 janvier 2015 - 10:20:13

Fichier

Identifiants

  • HAL Id : tel-01076418, version 1

Collections

Citation

Matthieu Marbac-Lourdelle. Model-based clustering for categorical and mixed data sets. Statistics [math.ST]. université lille 1, 2014. English. 〈tel-01076418〉

Partager

Métriques

Consultations de la notice

736

Téléchargements de fichiers

813