Parallèlisation et passage à l’échelle d’algorithmes de réduction de données pour le Datamining

Reine Marie Ndèla Marone

Résumé

In simplification big data is a dataset, which is so large that it cannot be managed with the usual conventional methods. The 5V (volume, variety, velocity, veracity and value) are five proprieties or determinant dimensions of big data. Volume refers to the quantity of datas, variety means that the datas are generated from several sources in many different formats and velocity is the speed of the data treatment. As for veracity it refers to the reliability of the data. And value tells the capacity of concentrating on the datas with real value. However, those larges sets of data contain redundant and nonrelevant informations that can alter the performances of the datamining algorithms. That’s the reason why they must be cleaned away from the big datasets before any other operations. The data reduction methods such as feature or instance selection can help in their cleaning. But they cannot face with the large volumes of big data, because they have been conceived for centralized computing and not to be run on cluster machines. Therefore they are not adapted for large set. What is more, they, sometimes take enormous time to run. Another fact is that the reduction of the cost of RAM memory has given birth to Apache Spark, a framework specialized in the analysis of big data, which can achieve in memory treatments using a cluster of machines. That environment can allow massive parallelization, which consist in distributing the treatments in great number of machines according to the size of your enterprise. Thus, the datamining technologies can use those apache spark advantages to adapt the datamining algorithms to the analysis of big data sets. Our work here, studies the coupling of datamining with the environment of spark. It is interested in the reduction of the data, which is of great utility in big data, which is characterized by a low density of informations. For that reason, we have proposed in this memoire, large scale features and instances selection methods developed in the Spark environment. The experiments that we made on large-scale datasets show that our methods behave very efficiently when dealing with big data.

Une définition simple du BIG DATA : c’est un ensemble de données qui est si grand qu'il ne peut pas être traité en utilisant des méthodes conventionnelles. Le BIG DATA est caractérisé par les 5V (volume, variété, vélocité, véracité et valeur). Le volume se réfère à la quantité de données, la variété signifie que les données sont générées à partir de plusieurs sources dans plusieurs formats différents et la vitesse désigne la vitesse du traitement des données. La véracité quant à elle fait référence à la fiabilité des données. Et la valeur signifie une capacité à se concentrer sur les données qui ont une réelle valeur. Cependant ces grandes masses de données contiennent des informations redondantes ou non pertinentes qui peuvent altérer les performances des algorithmes de la Fouille de Données. La Fouille de Données ou Datamining est définie comme l’extraction de connaissances à partir des données. Ainsi, il est primordial d’éliminer ces données redondantes ou non pertinentes pour exploiter de façon efficiente le BIG DATA. Malheureusement, les méthodes habituelles de réduction de données redondantes telles que la sélection d’attributs et la sélection d’instances permettent cette suppression mais ont des performances médiocres en termes d’exécution. Elles ne sont pas capables de faire face à la forte volumétrie des données BIG DATA. On dit alors qu’elles ne passent pas à l’échelle. En effet, elles ont été conçues pour une architecture informatique centralisée. Elles se révèlent incapables de profiter des nouvelles infrastructures composées de clusters de plusieurs milliers d’ordinateurs totalisant une capacité presque infinie de calcul et de stockage, pour traiter les données volumineuses du BIG DATA. APACHE SPARK est un nouvel environnement de calcul distribué qui veut tirer parti de ces nouvelles infrastructures, pour traiter de façon plus efficiente les données du BIG DATA. Ce nouveau framework permet la parrallélisation des algorithmes de datamining en distribuant calculs et données sur les mémoires RAM des milliers d’ordinateurs des clusters. Cette thèse étudie le couplage du datamining avec l’environnement APACHE SPARK. Elle s’intéresse plus particulièrement à la parallélisation des algorithmes de réduction de données dans le contexte du BIG DATA. Nous avons proposé des méthodes à large échelle de sélection d’attributs et d’instances dans l’environnement APACHE SPARK. Nos expérimentations sur de gros volumes de données montrent l’efficacité de nos méthodes. De plus, celles-ci passent à l’échelle quand les données deviennent volumineuses.

Parallelization and scaling of data reduction algorithms for Datamining

Parallèlisation et passage à l’échelle d’algorithmes de réduction de données pour le Datamining

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Partager