Sparse and discriminative clustering for complex data. An application to cytology.

Camille Brunet 1
1 SIBI
IBISC - Informatique, Biologie Intégrative et Systèmes Complexes
Résumé : Les thèmes principaux de ce mémoire sont la parcimonie et la discrimination pour la modélisation de données complexes. Dans une première partie de ce mémoire, nous nous plaçons dans un contexte de modèle de mélanges gaussiens: nous introduisons une nouvelle famille de modèles probabilistes qui simultanément classent et trouvent un espace discriminant tel que cet espace discrimine au mieux les groupes. Une famille de 12 modèles latents discriminants (DLM) modèles est introduite et se base sur trois idées: tout d'abord, les données réelles vivent dans un sous-espace latent de dimension intrinsèque plus petite que celle de l'espace observé; deuxièmement, un sous-espace de K-1 dimensions est suffisant pour discriminer K groupes; enfin, l'espace observé et celui latent sont liés par une transformation linéaire. Une procédure d'estimation, appelée Fisher-EM, est proposée et améliore la plupart du temps les performances de clustering grâce à l'utilisation du sous-espace discriminant. Dans un second travail, nous nous sommes intéressés à la détermination du nombre de groupes en utilisant le cadre de la sériation. nous proposons d'intégrer de la parcimonie dans les données par l'intermédiaire d'une famille de matrices binaires. Ces dernière sont construites à partir d'une mesure de dissimilarité basée sur le nombre de voisins communs entre paires d'observations. En particulier, plus le nombre de voisins communs imposé est important, plus la matrice sera parcimonieuse, i.e. remplie de zéros, ce qui permet, à mesure que le seuil de parcimonie augmente, de retirer les valeurs extrêmes et les données bruitées. Cette collection de matrices parcimonieuses est ordonnée selon un algorithme de sériation de type forward, nommé PB-Clus, afin d'obtenir des représentations par blocs des matrices sériées. Ces deux méthodes ont été validées sur une application biologique basée sur la détection du cancer du col de l'utérus.
Type de document :
Thèse
Applications [stat.AP]. Université d'Evry-Val d'Essonne, 2011. English
Liste complète des métadonnées

https://tel.archives-ouvertes.fr/tel-00671333
Contributeur : Camille Brunet <>
Soumis le : vendredi 17 février 2012 - 11:21:49
Dernière modification le : jeudi 9 février 2017 - 15:50:51
Document(s) archivé(s) le : jeudi 22 novembre 2012 - 13:00:08

Identifiants

  • HAL Id : tel-00671333, version 1

Collections

Citation

Camille Brunet. Sparse and discriminative clustering for complex data. An application to cytology.. Applications [stat.AP]. Université d'Evry-Val d'Essonne, 2011. English. 〈tel-00671333〉

Partager

Métriques

Consultations de
la notice

415

Téléchargements du document

384