Skip to Main content Skip to Navigation
Theses

Parallel Itemset Mining in Massively Distributed Environments

Mehdi Zitouni 1, 2, 3
2 ZENITH - Scientific Data Management
LIRMM - Laboratoire d'Informatique de Robotique et de Microélectronique de Montpellier, CRISAM - Inria Sophia Antipolis - Méditerranée
Résumé : Le problème de l'extraction d'itemset fréquents fermés dans les données massives s'est imposé depuis des décennies. Dans le cadre des travaux entrepris dans cette thèse, nous définissons des techniques d'analyse de données spécifiques, en adoptant une approche basée sur la codification en nombres premiers dans les datasets, dans des environnements massivement distribués afin d'améliorer les performances du processus d'extraction des itemsets fréquents fermés en parallèle (CFI). Nous introduisons DCIM (Distributed Closed Itemsets Mining), un algorithme parallèle pour extraire les CFIs d'une énorme quantité de données. DCIM permet de découvrir l'ensembles des itemset fermés fréquents avec une meilleure efficacité et une compacité des résultats. Une caractéristique clé de DCIM est la combinaison profonde des propriétés d'exploration de données avec les principes de la distribution massive de données. Nous avons réalisé des expériences exhaustives sur des jeux de données du monde réel, des datasets contenant jusqu'à 53 millions de documents, pour illustrer l'efficacité de DCIM. Dans un deuxième temps, nous nous intéressons au problème de la découverte des motifs informatifs maximales de taille k (miki ou "maximally informative k-itemsets) à partir d'un flux de données. Nous proposons PentroS (Parallel Entropy computing over streams), un algorithme pour leur extraction en environnement dynamique et distribué. PentroS rend le processus d'extraction de miki dans des grandes quantités entrantes de données simple et efficace. Avec PentroS, nous proposons un ensemble de techniques d'optimisation pour calculer l'entropie conjointe des motifs de différentes tailles. Ceci permet de réduire le taux de latence du processus d'extraction dans le streaming de manière significative. PentroS a été évalué en simulant des streaming à partir des données massives du monde réel. Les résultats de nos expérimentations confirment l'efficacité de notre approche par le passage à l'échelle de notre approche sur des motifs de grande taille, à partir de très grandes volumes de données entrantes et sortantes. Par ailleurs, la classification est l'une des briques les plus importantes de la fouille de données et de la recherche d'information. Le problème de classification a été largement étudié dans des environnements centralisés. Cependant, dans les environnements massivement distribués, les algorithmes de classification nécessitent une profonde exploitation pour améliorer leur temps d'exécution et leur précision. À cette fin, notre motivation derrière l'extraction des motifs informatifs repose sur le fait qu'ils peuvent être utilisés pour paramétrer efficacement les algorithmes de classification et gagner en terme précision. Ainsi, un déploiement des patterns informatifs comme modèle de feature selection pour les algorithmes de classification supervisée sera nécessaire pour esquisser l'amélioration en taux de précision. Ainsi, dans la troisième contribution de cette thèse, nous abordons le problème de la classification parallèle dans des environnements hautement distribués. Nous proposons EEC (Ensemble of Ensembles of Classifier) pour rendre la tâche de la classification simple et plus efficace. L'algorithme est composé de deux Jobs Spark. Combinant plusieurs classificateurs, EEC exploite profondément le parallélisme sous le framwork Spark pour non seulement réduire le temps d'exécution mais aussi améliorer de manière significative la précision de la classification en effectuant deux étapes de prise de décision. Nous montrons que la précision de la classification de EEC a été améliorée en utilisant des modèles informatifs et que l'erreur de classification peut être limitée à une petite valeur dans un environnement parallèle. EEC a été évalué en utilisant les jeux de données "English Wikipedia articles" et "clue Web". Nos résultats expérimentaux montrent que EEC est significativement plus efficace et précis que les approches pionnières de la littérature.
Complete list of metadatas

Cited literature [127 references]  Display  Hide  Download

https://tel.archives-ouvertes.fr/tel-01953619
Contributor : Mehdi Zitouni <>
Submitted on : Friday, December 14, 2018 - 9:54:29 AM
Last modification on : Monday, May 4, 2020 - 11:39:57 AM
Document(s) archivé(s) le : Friday, March 15, 2019 - 1:13:44 PM

File

MehdiZitouni_thesis.pdf
Files produced by the author(s)

Identifiers

  • HAL Id : tel-01953619, version 2

Citation

Mehdi Zitouni. Parallel Itemset Mining in Massively Distributed Environments. Information Theory [cs.IT]. Université de Tunis El Manar; Inria, 2018. English. ⟨tel-01953619v2⟩

Share

Metrics

Record views

248

Files downloads

323