Skip to Main content Skip to Navigation
Theses

Improving MapReduce Performance on Clusters

Sylvain Gault 1, 2
Résumé : Beaucoup de disciplines scientifiques s'appuient désormais sur l'analyse et la fouille de masses gigantesques de données pour produire de nouveaux résultats. Ces données brutes sont produites à des débits toujours plus élevés par divers types d'instruments tels que les séquenceurs d'ADN en biologie, le Large Hadron Collider (LHC) qui produisait en 2012, 25 pétaoctets par an, ou les grands télescopes tels que le Large Synoptic Survey Telescope (LSST) qui devrait produire 30 pétaoctets par nuit. Les scanners haute résolution en imagerie médicale et l'analyse de réseaux sociaux produisent également d'énormes volumes de données. Ce déluge de données soulève de nombreux défis en termes de stockage et de traitement informatique. L'entreprise Google a proposé en 2004 d'utiliser le modèle de calcul MapReduce afin de distribuer les calculs sur de nombreuses machines.Cette thèse s'intéresse essentiellement à améliorer les performances d'un environnement MapReduce. Pour cela, une conception modulaire et adaptable d'un environnement MapReduce est nécessaire afin de remplacer aisément les briques logicielles nécessaires à l'amélioration des performances. C'est pourquoi une approche à base de composants est étudiée pour concevoir un tel environnement de programmation. Afin d'étudier les performances d'une application MapReduce, il est nécessaire de modéliser la plate-forme, l'application et leurs performances. Ces modèles doivent être à la fois suffisamment précis pour que les algorithmes les utilisant produisent des résultats pertinents, mais aussi suffisamment simple pour être analysés. Un état de l'art des modèles existants est effectué et un nouveau modèle correspondant aux besoins d'optimisation est défini. De manière à optimiser un environnement MapReduce la première approche étudiée est une approche d'optimisation globale qui aboutit à une amélioration du temps de calcul jusqu'à 47 %. La deuxième approche se concentre sur la phase de shuffle de MapReduce où tous les nœuds envoient potentiellement des données à tous les autres nœuds. Différents algorithmes sont définis et étudiés dans le cas où le réseau est un goulet d'étranglement pour les transferts de données. Ces algorithmes sont mis à l'épreuve sur la plate-forme expérimentale Grid'5000 et montrent souvent un comportement proche de la borne inférieure alors que l'approche naïve en est éloignée.
Document type :
Theses
Complete list of metadatas

Cited literature [97 references]  Display  Hide  Download

https://tel.archives-ouvertes.fr/tel-01146365
Contributor : Abes Star :  Contact
Submitted on : Tuesday, April 28, 2015 - 11:47:05 AM
Last modification on : Monday, May 4, 2020 - 11:38:44 AM
Document(s) archivé(s) le : Monday, September 14, 2015 - 2:31:01 PM

File

GAULT_Sylvain_2015_These.pdf
Version validated by the jury (STAR)

Identifiers

  • HAL Id : tel-01146365, version 1

Citation

Sylvain Gault. Improving MapReduce Performance on Clusters. Other [cs.OH]. Ecole normale supérieure de lyon - ENS LYON, 2015. English. ⟨NNT : 2015ENSL0985⟩. ⟨tel-01146365⟩

Share

Metrics

Record views

752

Files downloads

1970