Classification paramétrique robuste partiellement supervisée en reconnaissance des formes - TEL - Thèses en ligne Accéder directement au contenu
Thèse Année : 2001

Parametric and robust semi-supervised clustering

Classification paramétrique robuste partiellement supervisée en reconnaissance des formes

Résumé

Classifier design is a signicant stage of a pattern recognition process. One generally
distinguishes the supervised approach (classification) from the unsupervised one (clustering) according
to whether expertise on data is available or not. In this work, we study the intermediate
case of a semi-supervised clustering for mixed pool of numerical data. Whatever the approach,
some elements, called outliers, differ from the a priori model for the data and can therefore
disturb the clustering process. Robust clustering methods aim at limiting the influence of these
outliers either by modelling them explicitly, or by using robust estimators.
In the first part of this work, we study the concept of robustness through various algorithms
for clustering data. We focus on the use of so called M-estimators within the framework of estimation
based on likelihood maximization. The second part of this study deals with a state of
the art of semi-supervised clustering methods. We show that partial supervision is introduced by
modifying the objective function with a term of agreement with respect to membership degrees
or posterior probabilities fixed by the expert.
Finally, we propose a robust algorithm for clustering data in a partially supervised way. A reject
option is introduced. Classes are modelled by a mixture of two components whose parameters
are estimated through an iterative robust process. Rejection is achieved through assignment to
an additional class dedicated to outliers. The proposed approach have been successfully applied
on various artificial and real data sets.
L'apprentissage est une étape importante d'un processus de reconnaissance des formes pour
la décision. On distingue généralement l'approche supervisée de l'approche non supervisée suivant
que l'on dispose ou non d'une expertise des données. Dans ce travail, nous étudions le cas
intermédiaire d'une classification semi-supervisée où l'on dispose d'un ensemble mixte de données
numériques.
Certains éléments à traiter diffèrent du modèle a priori supposé des données et peuvent perturber
le processus d'apprentissage. Les méthodes robustes de classification visent à limiter l'influence
de ces données aberrantes soit en les modélisant explicitement, soit en utilisant des estimateurs
robustes. La première partie de ce travail nous a permis d'étudier la notion de robustesse à
travers divers algorithmes de classification. Un intérêt particulier est porté à l'utilisation des
M-estimateurs de Huber dans le cadre de l'estimation par le principe du maximum de vraisemblance.
La seconde partie de cette étude est consacrée à l'état de l'art des principales méthodes de
classification semi-supervisée. Nous montrons que celles-ci reposent sur la modification de la
fonctionnelle réalisant la classification en introduisant un terme d'accord avec la mesure d'appartenance
fixée par l'expert.
Sur la base de ces deux domaines, nous proposons un algorithme robuste de classification partiellement
supervisée introduisant une option de rejet. Les classes sont modélisées par un mélange
de deux composantes dont les paramètres sont estimées par un calcul itératif robuste. Le rejet
est effectué par une fonction d'affectation produisant une classe additionnelle dédiée aux points
aberrants. Les résultats obtenus sur divers jeux de données artificiels et réels nous ont permis de
valider notre approche.
Fichier principal
Vignette du fichier
these_csj.pdf (4.06 Mo) Télécharger le fichier
Loading...

Dates et versions

tel-00145895 , version 1 (12-05-2007)

Identifiants

  • HAL Id : tel-00145895 , version 1

Citer

Christophe Saint-Jean. Classification paramétrique robuste partiellement supervisée en reconnaissance des formes. Modélisation et simulation. Université de La Rochelle, 2001. Français. ⟨NNT : ⟩. ⟨tel-00145895⟩
285 Consultations
891 Téléchargements

Partager

Gmail Facebook X LinkedIn More