Parallel Itemset Mining in Massively Distributed Environments

Mehdi Zitouni

Résumé

In the beginning of this thesis, we tackle the problem of CFI mining in big datasets. We adopt a prime-number-based approach to improve the performance of a parallel CFI mining process. We introduce Distributed-Closed-Itemset-Mining (DCIM), a parallel algorithm for mining CFIs from large amounts of data. DCIM allows discovering itemsets with better efficiency and result compactness. A key feature of DCIM is the combination of data mining properties with the principles of massive data distribution. Exhaustive experiments are carried out over real world datasets to illustrate the efficiency of DCIM for large real world datasets with up to 53 million documents. The second problem we address in this thesis is the discovery of maximally informative k-itemsets (miki) from a huge incoming/outgoing data over a stream based on joint entropy. We propose Parallel entropy computing over Streams (PentroS) a highly scalable, parallel miki mining algorithm that renders the mining process of the large throughput of data succinct and effective over a data streaming process. Its mining process is made up of only two efficient parallel jobs. With PentroS, we provide a set of significant optimizations for computing the joint entropy of the miki having different sizes, which drastically reduces the latency rate of the mining process. PentroS is extensively evaluated using a massive real-world data stream. Our experimental results confirm the effectiveness of our proposal by the significant scale-up obtained with lengthy itemsets and over very large throughput of data. Finally, we address the problem of parallel classification in highly distributed environments. We propose Ensemble of Ensembles of Classifiers (EEC), a parallel, scalable and highly accurate classifier algorithm. EEC renders a classification task simple, yet very efficient. Its working process is composed of two simple and compact jobs. Calling to more than one classifier, EEC cleverly exploits the parallelism setting not only to reduce the execution time but also to significantly improve the classification accuracy by performing two level decision making steps. We show that the EEC classification accuracy is improved by using informative patterns and that the classification error can be bounded to a small value. EEC is extensively evaluated using various real-world, large data sets. Our experimental results suggest that EEC is significantly more efficient and more accurate than alternative approaches.

Le problème de l'extraction d'itemset fréquents fermés dans les données massives s'est imposé depuis des décennies. Dans le cadre des travaux entrepris dans cette thèse, nous définissons des techniques d'analyse de données spécifiques, en adoptant une approche basée sur la codification en nombres premiers dans les datasets, dans des environnements massivement distribués afin d'améliorer les performances du processus d'extraction des itemsets fréquents fermés en parallèle (CFI). Nous introduisons DCIM (Distributed Closed Itemsets Mining), un algorithme parallèle pour extraire les CFIs d'une énorme quantité de données. DCIM permet de découvrir l'ensembles des itemset fermés fréquents avec une meilleure efficacité et une compacité des résultats. Une caractéristique clé de DCIM est la combinaison profonde des propriétés d'exploration de données avec les principes de la distribution massive de données. Nous avons réalisé des expériences exhaustives sur des jeux de données du monde réel, des datasets contenant jusqu'à 53 millions de documents, pour illustrer l'efficacité de DCIM. Dans un deuxième temps, nous nous intéressons au problème de la découverte des motifs informatifs maximales de taille k (miki ou "maximally informative k-itemsets) à partir d'un flux de données. Nous proposons PentroS (Parallel Entropy computing over streams), un algorithme pour leur extraction en environnement dynamique et distribué. PentroS rend le processus d'extraction de miki dans des grandes quantités entrantes de données simple et efficace. Avec PentroS, nous proposons un ensemble de techniques d'optimisation pour calculer l'entropie conjointe des motifs de différentes tailles. Ceci permet de réduire le taux de latence du processus d'extraction dans le streaming de manière significative. PentroS a été évalué en simulant des streaming à partir des données massives du monde réel. Les résultats de nos expérimentations confirment l'efficacité de notre approche par le passage à l'échelle de notre approche sur des motifs de grande taille, à partir de très grandes volumes de données entrantes et sortantes. Par ailleurs, la classification est l'une des briques les plus importantes de la fouille de données et de la recherche d'information. Le problème de classification a été largement étudié dans des environnements centralisés. Cependant, dans les environnements massivement distribués, les algorithmes de classification nécessitent une profonde exploitation pour améliorer leur temps d'exécution et leur précision. À cette fin, notre motivation derrière l'extraction des motifs informatifs repose sur le fait qu'ils peuvent être utilisés pour paramétrer efficacement les algorithmes de classification et gagner en terme précision. Ainsi, un déploiement des patterns informatifs comme modèle de feature selection pour les algorithmes de classification supervisée sera nécessaire pour esquisser l'amélioration en taux de précision. Ainsi, dans la troisième contribution de cette thèse, nous abordons le problème de la classification parallèle dans des environnements hautement distribués. Nous proposons EEC (Ensemble of Ensembles of Classifier) pour rendre la tâche de la classification simple et plus efficace. L'algorithme est composé de deux Jobs Spark. Combinant plusieurs classificateurs, EEC exploite profondément le parallélisme sous le framwork Spark pour non seulement réduire le temps d'exécution mais aussi améliorer de manière significative la précision de la classification en effectuant deux étapes de prise de décision. Nous montrons que la précision de la classification de EEC a été améliorée en utilisant des modèles informatifs et que l'erreur de classification peut être limitée à une petite valeur dans un environnement parallèle. EEC a été évalué en utilisant les jeux de données "English Wikipedia articles" et "clue Web". Nos résultats expérimentaux montrent que EEC est significativement plus efficace et précis que les approches pionnières de la littérature.

Parallel Itemset Mining in Massively Distributed Environments

L'Extraction des motifs dans des Environnements Massivement Distribués

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager