Automatic and Adaptive Learning for Relational Data Stream Clustering - TEL - Thèses en ligne Accéder directement au contenu
Thèse Année : 2018

Automatic and Adaptive Learning for Relational Data Stream Clustering

Apprentissage automatique et adaptatif pour le clustering de flux de données relationnelles

Résumé

The research work presented in this thesis concerns the development of unsupervised learning approaches adapted to large relational and dynamic data-sets. The combination of these three characteristics (size, complexity and evolution) is a major challenge in the field of data mining and few satisfactory solutions exist at the moment, despite the obvious needs of companies. This is a real challenge, because the approaches adapted to relational data have a quadratic complexity, unsuited to the analysis of dynamic data. We propose here two complementary approaches for the analysis of this type of data. The first approach is able to detect well-separated clusters from a signal created during an incremental reordering of the dissimilarity matrix, with no parameter to choose (e.g., the number of clusters). The second proposes to use support points among the objects in order to build a representation space to define representative prototypes of the clusters. Finally, we apply the proposed approaches to real-time profiling of connected users. Profiling tasks are designed to recognize the "state of mind" of users through their navigations on different web-sites.
Le travail de recherche exposé dans cette thèse concerne le développement d’approches d’apprentissage non-supervisé adaptés aux grands jeux de données relationnelles et dynamiques. La combinaison de ces trois caractéristiques (taille, complexité et évolution)constitue un défi majeur dans le domaine de l’exploration de données et peu de solutions satisfaisantes existent pour le moment, malgré les besoins de plus en plus manifestes des entreprises. C’est un véritable challenge, car les approches adaptées aux données relationnelle sont une complexité quadratique inadaptée à l’analyse de données dynamiques. Nous proposons ici deux approches complémentaires pour l’analyse de ce type de données. La première approche est capable de détecter des clusters bien séparés à partir d’un signal créé lors d’un réordonnancement incrémental de la matrice de dissimilarité, sans paramètre à choisir (par ex. le nombre de clusters). La seconde propose d’utiliser des points de support parmi les objets afin de construire un espace de représentation permettant de définir des prototypes représentatifs des clusters. Enfin, nous appliquons les approches proposées au profilage en temps réel d’utilisateurs connectés. Les tâches de profilage visent à reconnaître"l’état d’esprit" des utilisateurs à travers leurs navigations sur différents sites.
Fichier principal
Vignette du fichier
edgalilee_th_2018_rastin.pdf (8.22 Mo) Télécharger le fichier
Origine : Version validée par le jury (STAR)
Loading...

Dates et versions

tel-02511420 , version 1 (18-03-2020)

Identifiants

  • HAL Id : tel-02511420 , version 1

Citer

Parisa Rastin. Automatic and Adaptive Learning for Relational Data Stream Clustering. Automatic Control Engineering. Université Sorbonne Paris Cité, 2018. English. ⟨NNT : 2018USPCD052⟩. ⟨tel-02511420⟩
182 Consultations
169 Téléchargements

Partager

Gmail Facebook X LinkedIn More