Evaluation d'une mesure de similitude en classification supervisée : application à la préparation de données séquentielles

Sylvain Ferrandiz

Thèse Année : 2006

Supervised learning from sequential data

Evaluation d'une mesure de similitude en classification supervisée : application à la préparation de données séquentielles

(1)

Sylvain Ferrandiz

Fonction : Auteur
PersonId : 942816

Equipe CODAG - Laboratoire GREYC - UMR6072

Résumé

In the data mining process, the main part of the data preparation step is
devoted to feature construction and selection. The filter approach usually adopted requires
evaluation methods for any kind of feature. We address the problem of the supervised
evaluation of a sequential feature. We show that this problem is solved if a more general
problem is tackled : that of the supervised evaluation of a similarity measure.

We provide such an evaluation method. We first turn the problem into the search of
a discriminating Voronoi partition. Then, we define a new supervised criterion evaluating
such partitions and design a new optimised algorithm. The criterion automatically prevents
from overfitting the data and the algorithm quickly provides a good solution. In the
end, the method can be interpreted as a robust non parametric method for estimating
the conditional density of a categorical target feature given a similarity measure defined
from a descriptive feature.

The method is experimented on many datasets. It is useful for answering questions like :
which day of the week or which hourly time segment is the most relevant to discriminate
customers from their call detailed records ? Which series allows to better estimate the
customer need for a new service ?

En phase de préparation d'un processus de fouille de données, une part importante
du travail est consacrée à la construction et à la sélection des variables descriptives.
L'approche filtre univariée usuellement adoptée nécessite l'emploi d'une méthode
d'évaluation d'une variable. Nous considérons la question de l'évaluation supervisée d'une
variable séquentielle. Pour résoudre ce problème, nous montrons qu'il suffit de résoudre
un problème plus général : celui de l'évaluation supervisée d'une mesure de similitude.

Nous proposons une telle méthode d'évaluation. Pour l'obtenir, nous formulons le
problème en un problème de recherche d'une partition de Voronoi informative. Nous
proposons un nouveau critère d'évaluation supervisée de ces partitions et une nouvelle
heuristique de recherche optimisée. Le critère prévient automatiquement le risque de surapprentissage
et l'heuristique trouve rapidement une bonne solution. Au final, la méthode
réalise une estimation non paramétrique robuste de la densité d'une variable cible catégorielle
conditionnellement à une mesure de similitude définie à partir d'une variable descriptive.

La méthode a été testée sur de nombreux jeux de données. Son utilisation permet
de répondre à des questions comme : quel jour de la semaine ou quelle tranche horaire
sur la semaine discrimine le mieux le segment auquel appartient un foyer à partir de sa
consommation téléphonique fixe ? Quelle série de mesures permet de quantifier au mieux l'appétence à un nouveau service ?

Mots clés

Supervised learning sequential data

Analyse Discriminante Statistique Bayésienne Apprentissage Exploration de Données

Domaines

Informatique [cs]

Fichier principal

ManuscritDefinitifFerrandiz.pdf (3.24 Mo)

HAL System : Connectez-vous pour contacter le contributeur

https://theses.hal.science/tel-00123406

Soumis le : mardi 9 janvier 2007-15:26:23

Dernière modification le : mercredi 20 mars 2024-16:20:04

Archivage à long terme le : mardi 6 avril 2010-21:50:23

Dates et versions

tel-00123406 , version 1 (09-01-2007)

Identifiants

HAL Id : tel-00123406 , version 1

Citer

Sylvain Ferrandiz. Evaluation d'une mesure de similitude en classification supervisée : application à la préparation de données séquentielles. Informatique [cs]. Université de Caen, 2006. Français. ⟨NNT : ⟩. ⟨tel-00123406⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

CNRS GREYC GREYC-CODAG COMUE-NORMANDIE THESES-NU ENSICAEN UNICAEN

172 Consultations

383 Téléchargements

Supervised learning from sequential data

Evaluation d'une mesure de similitude en classification supervisée : application à la préparation de données séquentielles

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager