Evaluation d'une mesure de similitude en classification supervisée : application à la préparation de données séquentielles - TEL - Thèses en ligne Accéder directement au contenu
Thèse Année : 2006

Supervised learning from sequential data

Evaluation d'une mesure de similitude en classification supervisée : application à la préparation de données séquentielles

Résumé

In the data mining process, the main part of the data preparation step is
devoted to feature construction and selection. The filter approach usually adopted requires
evaluation methods for any kind of feature. We address the problem of the supervised
evaluation of a sequential feature. We show that this problem is solved if a more general
problem is tackled : that of the supervised evaluation of a similarity measure.

We provide such an evaluation method. We first turn the problem into the search of
a discriminating Voronoi partition. Then, we define a new supervised criterion evaluating
such partitions and design a new optimised algorithm. The criterion automatically prevents
from overfitting the data and the algorithm quickly provides a good solution. In the
end, the method can be interpreted as a robust non parametric method for estimating
the conditional density of a categorical target feature given a similarity measure defined
from a descriptive feature.

The method is experimented on many datasets. It is useful for answering questions like :
which day of the week or which hourly time segment is the most relevant to discriminate
customers from their call detailed records ? Which series allows to better estimate the
customer need for a new service ?
En phase de préparation d'un processus de fouille de données, une part importante
du travail est consacrée à la construction et à la sélection des variables descriptives.
L'approche filtre univariée usuellement adoptée nécessite l'emploi d'une méthode
d'évaluation d'une variable. Nous considérons la question de l'évaluation supervisée d'une
variable séquentielle. Pour résoudre ce problème, nous montrons qu'il suffit de résoudre
un problème plus général : celui de l'évaluation supervisée d'une mesure de similitude.

Nous proposons une telle méthode d'évaluation. Pour l'obtenir, nous formulons le
problème en un problème de recherche d'une partition de Voronoi informative. Nous
proposons un nouveau critère d'évaluation supervisée de ces partitions et une nouvelle
heuristique de recherche optimisée. Le critère prévient automatiquement le risque de surapprentissage
et l'heuristique trouve rapidement une bonne solution. Au final, la méthode
réalise une estimation non paramétrique robuste de la densité d'une variable cible catégorielle
conditionnellement à une mesure de similitude définie à partir d'une variable descriptive.

La méthode a été testée sur de nombreux jeux de données. Son utilisation permet
de répondre à des questions comme : quel jour de la semaine ou quelle tranche horaire
sur la semaine discrimine le mieux le segment auquel appartient un foyer à partir de sa
consommation téléphonique fixe ? Quelle série de mesures permet de quantifier au mieux l'appétence à un nouveau service ?
Fichier principal
Vignette du fichier
ManuscritDefinitifFerrandiz.pdf (3.24 Mo) Télécharger le fichier
Loading...

Dates et versions

tel-00123406 , version 1 (09-01-2007)

Identifiants

  • HAL Id : tel-00123406 , version 1

Citer

Sylvain Ferrandiz. Evaluation d'une mesure de similitude en classification supervisée : application à la préparation de données séquentielles. Informatique [cs]. Université de Caen, 2006. Français. ⟨NNT : ⟩. ⟨tel-00123406⟩
172 Consultations
383 Téléchargements

Partager

Gmail Facebook X LinkedIn More