Une méthode de classification non-supervisée pour l'apprentissage de règles et la recherche d'information - TEL - Thèses en ligne Accéder directement au contenu
Thèse Année : 2004

A Clustering method for rules learning and information retrieval

Une méthode de classification non-supervisée pour l'apprentissage de règles et la recherche d'information

Résumé

Data clustering is a major, but a hard, task in the unsupervised learning domain. This process is used in various context such as Knowledge Discovery, representation or description simplification of a data set.

In this study, we present the clustering algorithm PoBOC which organizes a dataset into overlapping classes which naturally match with real concepts of data. This clustering method is used in two very different applications.

- In the supervised learning field, the induction of a set of propositional and first-order rules is performed by first organizing each class into sub-classes.
- In the Information Retrieval field, the ambiguities from natural langage naturally induce overlaps between thematic.

On these two research domains, the organization of a dataset into overlapping clusters is validated with suitable experimental studies.
Le regroupement d'objets, dans un cadre non-supervisé, est une tâche importante et difficile en apprentissage. Ce processus intervient dans des contextes variés tels que la découverte de connaissances, la simplification dans le représentation ou la description d'un ensemble de données.

Nous proposons, dans cette étude, l'algorithme de clustering PoBOC permettant de structurer un ensemble d'objets en classes non-disjointes. Nous utilisons cette méthode de clustering comme outil de traitement dans deux applications très différentes.

- En apprentissage supervisé, l'organisation préalable des instances apporte une connaissance utile pour la tâche d'induction de règles propositionnelles et logiques.

- En Recherche d'Information, les ambiguïtés et subtilités de la langue naturelle induisent naturellement des recouvrements entre thématiques.

Dans ces deux domaines de recherche, l'intérêt d'organiser les objets en classes non-disjointes est confirmé par les études expérimentales adaptées.
Fichier principal
Vignette du fichier
cleuziou_these.pdf (4.69 Mo) Télécharger le fichier
Loading...

Dates et versions

tel-00084828 , version 1 (10-07-2006)

Identifiants

  • HAL Id : tel-00084828 , version 1

Citer

Guillaume Cleuziou. Une méthode de classification non-supervisée pour l'apprentissage de règles et la recherche d'information. Autre [cs.OH]. Université d'Orléans, 2004. Français. ⟨NNT : ⟩. ⟨tel-00084828⟩
1742 Consultations
17556 Téléchargements

Partager

Gmail Facebook X LinkedIn More