Model-based tensor (co)-clustering and applications - TEL - Thèses en ligne Accéder directement au contenu
Thèse Année : 2020

Model-based tensor (co)-clustering and applications

Classification croisée de données tensorielles et applications

Rafika Boutalbi
  • Fonction : Auteur
  • PersonId : 1282445
  • IdRef : 271890576

Résumé

Clustering, which seeks to group together similar data points according to a given criterion, is an important unsupervised learning technique to deal with large scale data. In particular, given a data matrix where rows represent objects and columns represent features, clustering aims to partition only one dimension of the matrix at a time, by clustering either objects or features. Although successfully applied in several application domains, clustering techniques are often challenged by certain characteristics exhibited by some datasets such as high dimensionality and sparsity. When it comes to such data, co-clustering techniques, which allow the simultaneous clustering of rows and columns of a data matrix, has proven to be more beneficial. In particular, co-clustering techniques allow the exploitation of the inherent duality between the objects set and features set, which make them more effective even if we are interested in the clustering of only one dimension of our data matrix. In addition, co-clustering turns out to be more efficient since compressed matrices are used at each time step of the process instead of the whole matrix for traditional clustering. Although co-clustering approaches have been successfully applied in a variety of applications, existing approaches are specially tailored for datasets represented by double-entry tables. However, in several real-world applications, two dimensions are not sufficient to represent the dataset. For example, if we consider the articles clustering problem, several information linked to the articles can be collected, such as common words, co-authors and citations, which naturally lead to a tensorial representation. Intuitively, leveraging all this information would lead to a better clustering quality. In particular, two articles that share a large set of words, authors and citations are very likely to be similar. Despite the great interest of tensor co-clustering models, research works are extremely limited in this context and rely, for most of them, on tensor factorization methods. Inspired by the famous statement made by Jean Paul Benzécri "The model must follow the data and not vice versa", we have chosen in this thesis to rely on appropriate mixture models. More explicitly, we propose several new co-clustering models which are specially tailored for tensorial representations as well as robust towards data sparsity. Our contribution can be summarized as follows. First, we propose to extend the LBM (Latent Block Model) formalism to take into account tensorial structures. More specifically, we present Tensor LBM (TLBM), a powerful tensor co-clustering model that we successfully applied on diverse kind of data. Moreover, we highlight that the derived algorithm VEM-T, reveals the most meaningful co-clusters from tensor data. Second, we develop a novel Sparse TLBM taking into account sparsity. We extend its use for the management of multiple graphs (or multi-view graphs), leading to implicit consensus clustering of multiple graphs. As a last contribution of this thesis, we propose a new co-clusterwise method which integrates co-clustering in a supervised learning framework. These contributions have been successfully evaluated on tensorial data from various fields ranging from recommendation systems, clustering of hyperspectral images and categorization of documents, to waste management optimization. They also allow us to envisage interesting and immediate future research avenues. For instance, the extension of the proposed models to tri-clustering and multivariate time series.
La classification non supervisée ou clustering suscite un grand intérêt dans la communauté d’apprentissage machine. Etant donné un ensemble d'objets décrits par un ensemble d'attributs, le clustering vise à partitionner l'ensemble des objets en classes homogènes. Le regroupement ou catégorisation de cet ensemble, est souvent nécessaire pour le traitement de données massives, devenu actuellement un axe de recherche prioritaire. A noter que lorsqu'on s'intéresse au clustering, nous faisons généralement référence au clustering de l'ensemble des objets. Depuis deux décennies, un intérêt est porté à la classification croisée (ou co-clustering) qui permet de regrouper simultanément les lignes et les colonnes d'une matrice de données. Le co-clustering conduit de ce fait à une réorganisation des données en blocs homogènes (après permutations appropriées). Cette approche joue un rôle important dans une grande variété d'applications où les données sont généralement organisées dans des tableaux à double entrées. Cependant si on considère l’exemple du clustering d’articles, nous pouvons collecter plusieurs informations telles que les termes en commun, les co-auteurs et les citations, qui conduisent naturellement à une représentation tensorielle. L'exploitation d'un tel tenseur d'ordre 3 permettrait d'améliorer les résultats de clustering d'un des ensembles. Ainsi, deux articles qui partagent un ensemble important de mots en commun, qui ont des auteurs en commun et qui partagent une bibliographie commune, sont très susceptibles de traiter d'une même thématique. Dans cette thèse nous nous intéressons à de telles structures de données. Malgré le grand intérêt pour le co-clustering et la représentation tensorielle, peu de travaux portent sur le co-clustering de tenseurs. Nous pouvons néanmoins citer le travail basé sur l’information Minimum Bregman (MBI), ou encore la méthode de co-clustering de tenseurs non négatifs GTSC (General Tensor Spectral Co-Clustering). Mais la majorité des travaux considèrent le co-clustering à partir de méthodes de factorisation tensorielles. Dans cette thèse nous proposons de nouvelles approches probabilistes pour le co-clustering de tenseur d'ordre 3. Dès lors plusieurs défis sont à relever dont les suivants. Comment gérer efficacement les données de grande dimension ? Comment gérer la sparsité des données et exploiter les dépendances inter-tranches des données tensorielles ? S'inspirant de la célèbre citation de Jean Paul Benzcri "Le modèle doit suivre les données et non l’inverse", nous avons choisi dans cette thèse de nous appuyer sur des modèles de mélange appropriés. Ainsi, nos contributions sont basées sur le modèle des blocs latents ou (LBM, Latent Block Model) pour le co-clustering, proposé pour la première fois par Govaert et al. Voici une brève description des différentes contributions : a) Extension du formalisme des LBM au co-clustering des données tensorielles et présentation d'un nouveau modèle Tensor LBM (TLBM) comme solution, b) Proposition d'un Sparse TLBM prenant en compte la sparsité et son extension pour la gestion des graphes multiples ou graphes multi-vues, et c) Développement d'une méthode de co-clusterwise qui intègre le co-clustering dans un cadre d'apprentissage supervisé. Ces contributions ont été évaluées avec succès sur des données tensorielles issues de divers domaines allant des systèmes de recommandation, le clustering d'images hyperspectrales, la catégorisation de documents, à l'optimisation de la gestion des déchets. Elles permettent également d'envisager des pistes de recherches futures intéressantes et immédiates. Par exemple, l'extension du modèle proposé au tri-clustering et aux séries temporelles multivariées.
Fichier principal
Vignette du fichier
vd_Boutalbi_Rafika.pdf (21.34 Mo) Télécharger le fichier
Origine : Version validée par le jury (STAR)

Dates et versions

tel-04203093 , version 1 (11-09-2023)

Identifiants

  • HAL Id : tel-04203093 , version 1

Citer

Rafika Boutalbi. Model-based tensor (co)-clustering and applications. Artificial Intelligence [cs.AI]. Université Paris Cité, 2020. English. ⟨NNT : 2020UNIP5186⟩. ⟨tel-04203093⟩
44 Consultations
4 Téléchargements

Partager

Gmail Facebook X LinkedIn More