Skip to Main content Skip to Navigation
Theses

Sparse and discriminative clustering for complex data. An application to cytology.

Résumé : Les thèmes principaux de ce mémoire sont la parcimonie et la discrimination pour la modélisation de données complexes. Dans une première partie de ce mémoire, nous nous plaçons dans un contexte de modèle de mélanges gaussiens: nous introduisons une nouvelle famille de modèles probabilistes qui simultanément classent et trouvent un espace discriminant tel que cet espace discrimine au mieux les groupes. Une famille de 12 modèles latents discriminants (DLM) modèles est introduite et se base sur trois idées: tout d'abord, les données réelles vivent dans un sous-espace latent de dimension intrinsèque plus petite que celle de l'espace observé; deuxièmement, un sous-espace de K-1 dimensions est suffisant pour discriminer K groupes; enfin, l'espace observé et celui latent sont liés par une transformation linéaire. Une procédure d'estimation, appelée Fisher-EM, est proposée et améliore la plupart du temps les performances de clustering grâce à l'utilisation du sous-espace discriminant. Dans un second travail, nous nous sommes intéressés à la détermination du nombre de groupes en utilisant le cadre de la sériation. nous proposons d'intégrer de la parcimonie dans les données par l'intermédiaire d'une famille de matrices binaires. Ces dernière sont construites à partir d'une mesure de dissimilarité basée sur le nombre de voisins communs entre paires d'observations. En particulier, plus le nombre de voisins communs imposé est important, plus la matrice sera parcimonieuse, i.e. remplie de zéros, ce qui permet, à mesure que le seuil de parcimonie augmente, de retirer les valeurs extrêmes et les données bruitées. Cette collection de matrices parcimonieuses est ordonnée selon un algorithme de sériation de type forward, nommé PB-Clus, afin d'obtenir des représentations par blocs des matrices sériées. Ces deux méthodes ont été validées sur une application biologique basée sur la détection du cancer du col de l'utérus.
Document type :
Theses
Complete list of metadatas

https://tel.archives-ouvertes.fr/tel-00671333
Contributor : Camille Brunet <>
Submitted on : Friday, February 17, 2012 - 11:21:49 AM
Last modification on : Tuesday, June 30, 2020 - 11:56:08 AM
Document(s) archivé(s) le : Thursday, November 22, 2012 - 1:00:08 PM

Identifiers

  • HAL Id : tel-00671333, version 1

Collections

Citation

Camille Brunet. Sparse and discriminative clustering for complex data. An application to cytology.. Applications [stat.AP]. Université d'Evry-Val d'Essonne, 2011. English. ⟨tel-00671333⟩

Share

Metrics

Record views

687

Files downloads

515