236 articles – 18 Notices  [english version]
Fiche détaillée Thèses
Université d'Orléans (2004-12-08), Christel Vrain (Dir.)
Liste des fichiers attachés à ce document : 
PDF
cleuziou_these.pdf(4.8 MB)
Une méthode de classification non-supervisée pour l'apprentissage de règles et la recherche d'information
Guillaume Cleuziou1

Le regroupement d'objets, dans un cadre non-supervisé, est une tâche importante et difficile en apprentissage. Ce processus intervient dans des contextes variés tels que la découverte de connaissances, la simplification dans le représentation ou la description d'un ensemble de données.

Nous proposons, dans cette étude, l'algorithme de clustering PoBOC permettant de structurer un ensemble d'objets en classes non-disjointes. Nous utilisons cette méthode de clustering comme outil de traitement dans deux applications très différentes.

- En apprentissage supervisé, l'organisation préalable des instances apporte une connaissance utile pour la tâche d'induction de règles propositionnelles et logiques.

- En Recherche d'Information, les ambiguïtés et subtilités de la langue naturelle induisent naturellement des recouvrements entre thématiques.

Dans ces deux domaines de recherche, l'intérêt d'organiser les objets en classes non-disjointes est confirmé par les études expérimentales adaptées.
1 :  LIFO - Laboratoire d'Informatique Fondamentale d'Orléans
Apprentissage – classification – fouille de données – recherche d'information

A Clustering method for rules learning and information retrieval
Data clustering is a major, but a hard, task in the unsupervised learning domain. This process is used in various context such as Knowledge Discovery, representation or description simplification of a data set.

In this study, we present the clustering algorithm PoBOC which organizes a dataset into overlapping classes which naturally match with real concepts of data. This clustering method is used in two very different applications.

- In the supervised learning field, the induction of a set of propositional and first-order rules is performed by first organizing each class into sub-classes.
- In the Information Retrieval field, the ambiguities from natural langage naturally induce overlaps between thematic.

On these two research domains, the organization of a dataset into overlapping clusters is validated with suitable experimental studies.
Machine learning – classification – data mining – information retrieval