Automatic and Adaptive Learning for Relational Data Stream Clustering

Parisa Rastin

Thèse Année : 2018

Automatic and Adaptive Learning for Relational Data Stream Clustering

Apprentissage automatique et adaptatif pour le clustering de flux de données relationnelles

(1)

Parisa Rastin

Fonction : Auteur

Laboratoire d'Informatique de Paris-Nord

Résumé

The research work presented in this thesis concerns the development of unsupervised learning approaches adapted to large relational and dynamic data-sets. The combination of these three characteristics (size, complexity and evolution) is a major challenge in the field of data mining and few satisfactory solutions exist at the moment, despite the obvious needs of companies. This is a real challenge, because the approaches adapted to relational data have a quadratic complexity, unsuited to the analysis of dynamic data. We propose here two complementary approaches for the analysis of this type of data. The first approach is able to detect well-separated clusters from a signal created during an incremental reordering of the dissimilarity matrix, with no parameter to choose (e.g., the number of clusters). The second proposes to use support points among the objects in order to build a representation space to define representative prototypes of the clusters. Finally, we apply the proposed approaches to real-time profiling of connected users. Profiling tasks are designed to recognize the "state of mind" of users through their navigations on different web-sites.

Le travail de recherche exposé dans cette thèse concerne le développement d’approches d’apprentissage non-supervisé adaptés aux grands jeux de données relationnelles et dynamiques. La combinaison de ces trois caractéristiques (taille, complexité et évolution)constitue un défi majeur dans le domaine de l’exploration de données et peu de solutions satisfaisantes existent pour le moment, malgré les besoins de plus en plus manifestes des entreprises. C’est un véritable challenge, car les approches adaptées aux données relationnelle sont une complexité quadratique inadaptée à l’analyse de données dynamiques. Nous proposons ici deux approches complémentaires pour l’analyse de ce type de données. La première approche est capable de détecter des clusters bien séparés à partir d’un signal créé lors d’un réordonnancement incrémental de la matrice de dissimilarité, sans paramètre à choisir (par ex. le nombre de clusters). La seconde propose d’utiliser des points de support parmi les objets afin de construire un espace de représentation permettant de définir des prototypes représentatifs des clusters. Enfin, nous appliquons les approches proposées au profilage en temps réel d’utilisateurs connectés. Les tâches de profilage visent à reconnaître"l’état d’esprit" des utilisateurs à travers leurs navigations sur différents sites.

Mots clés

Clustering Barycentric Coordinates

Données Relationnelles et Dynamiques Coordonnées Barycentriques,

Domaines

Automatique Apprentissage [cs.LG]

Fichier principal

edgalilee_th_2018_rastin.pdf (8.22 Mo)

Origine : Version validée par le jury (STAR)

ABES STAR : Contact

https://theses.hal.science/tel-02511420

Soumis le : mercredi 18 mars 2020-17:46:07

Dernière modification le : mercredi 28 juin 2023-03:30:42

Archivage à long terme le : vendredi 19 juin 2020-14:32:51

Dates et versions

tel-02511420 , version 1 (18-03-2020)

Identifiants

HAL Id : tel-02511420 , version 1

Citer

Parisa Rastin. Automatic and Adaptive Learning for Relational Data Stream Clustering. Automatic Control Engineering. Université Sorbonne Paris Cité, 2018. English. ⟨NNT : 2018USPCD052⟩. ⟨tel-02511420⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

UNIV-PARIS13 CNRS STAR LIPN USPC GALILE SORBONNE-PARIS-NORD

182 Consultations

169 Téléchargements

Automatic and Adaptive Learning for Relational Data Stream Clustering

Apprentissage automatique et adaptatif pour le clustering de flux de données relationnelles

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager