Modèles markoviens et extensions pour la classification de données complexes - TEL - Thèses en ligne Accéder directement au contenu
Thèse Année : 2007

Markovian models and extensions for complex data clustering

Modèles markoviens et extensions pour la classification de données complexes

Résumé

We address the issue of clustering individuals from " complex " observations in the sense that they do not verify some of the classically adopted simplifying assumptions. In this work, the individuals to be clustered are assumed to be dependant upon one another. We adopt a probabilistic approach based on Markovian models. Three clustering problems are considered.
The first of these relates to high-dimensional data clustering. For such a problem, we adopt a non-diagonal Gaussian Markovian model which is based upon the fact that most high-dimensional data actually lives in class dependent subspaces of lower dimension. Such a model only requires the estimation of a reasonable number of parameters.
The second point attempts go beyond the simplifying assumption of unimodal, and in particular Gaussian, independent noise. We consider for this the recent triplet Markov field model and propose a new family of triplet Markov field models adapted to the framework of a supervised classification. We illustrate the flexibility and performances of our models, applied through real texture image recognition.
Finally, we tackle the problem of clustering with incomplete observations, i.e. for which some values are missing. For this we develop a Markovian method which does not require preliminary imputation of the missing data. We present an application of this methodology on a real gene clustering issue.
Nous abordons le problème de la classification d'individus à partir d'observations dites " complexes " en ce sens qu'elles ne vérifient pas certaines des hypothèses simplificatrices classiquement adoptées. Dans ce travail, les individus à classer sont supposés dépendants les uns des autres. L'approche adoptée est une approche probabiliste fondée sur une modélisation markovienne. Trois problèmes de classification sont abordés.
Le premier concerne la classification de données lorsque celles-ci sont de grande dimension. Pour un tel problème, nous adoptons un modèle markovien gaussien non diagonal tirant partie du fait que la plupart des observations de grande dimension vivent en réalité dans des sous-espaces propres à chacune des classes et dont les dimensions intrinsèques sont faibles. De ce fait, le nombre de paramètres libres du modèle reste raisonnable.
Le deuxième point abordé s'attache à relâcher l'hypothèse simplificatrice de bruit indépendant unimodal, et en particulier gaussien. Nous considérons pour cela le modèle récent de champ de Markov triplet et proposons une nouvelle famille de Markov triplet adaptée au cadre d'une classification supervisée. Nous illustrons la flexibilité et les performances de nos modèles sur une application à la reconnaissance d'images réelles de textures.
Enfin, nous nous intéressons au problème de la classification d'observations dites incomplètes, c'est-à-dire pour lesquelles certaines valeurs sont manquantes. Nous développons pour cela une méthode markovienne ne nécessitant pas le remplacement préalable des observations manquantes. Nous présentons une application de cette méthodologie à un problème réel de classification de gènes.
Fichier principal
Vignette du fichier
memoire.pdf (10.53 Mo) Télécharger le fichier
soutenance.pdf (4.28 Mo) Télécharger le fichier
Format : Autre

Dates et versions

tel-00195271 , version 1 (10-12-2007)
tel-00195271 , version 2 (24-09-2009)

Identifiants

  • HAL Id : tel-00195271 , version 2

Citer

Juliette Blanchet. Modèles markoviens et extensions pour la classification de données complexes. Mathématiques [math]. Université Joseph-Fourier - Grenoble I, 2007. Français. ⟨NNT : ⟩. ⟨tel-00195271v2⟩
594 Consultations
849 Téléchargements

Partager

Gmail Facebook X LinkedIn More