Optimizing data management for MapReduce applications on large-scale distributed infrastructures

Diana Moise 1
1 KerData - Scalable Storage for Clouds and Beyond
IRISA-D1 - SYSTÈMES LARGE ÉCHELLE, Inria Rennes – Bretagne Atlantique
Résumé : Les applications data-intensive sont largement utilisées au sein de domaines diverses dans le but d'extraire et de traiter des informations, de concevoir des systèmes complexes, d'effectuer des simulations de modèles réels, etc. Ces applications posent des défis complexes tant en termes de stockage que de calcul. Dans le contexte des applications data-intensive, nous nous concentrons sur le paradigme MapReduce et ses mises en oeuvre. Introduite par Google, l'abstraction MapReduce a révolutionné la communauté intensif de données et s'est rapidement étendue à diverses domaines de recherche et de production. Une implémentation domaine publique de l'abstraction mise en avant par Google, a été fournie par Yahoo à travers du project Hadoop. Le framework Hadoop est considéré l'implémentation de référence de MapReduce et est actuellement largement utilisé à des fins diverses et sur plusieurs infrastructures. Nous proposons un système de fichiers distribué, optimisé pour des accès hautement concurrents, qui puisse servir comme couche de stockage pour des applications MapReduce. Nous avons conçu le BlobSeer File System (BSFS), basé sur BlobSeer, un service de stockage distribué, hautement efficace, facilitant le partage de données à grande échelle. Nous étudions également plusieurs aspects liés à la gestion des données intermédiaires dans des environnements MapReduce. Nous explorons les contraintes des données intermédiaires MapReduce à deux niveaux: dans le même job MapReduce et pendant l'exécution des pipelines d'applications MapReduce. Enfin, nous proposons des extensions de Hadoop, un environnement MapReduce populaire et open-source, comme par example le support de l'opération append. Ce travail inclut également l'évaluation et les résultats obtenus sur des infrastructures à grande échelle: grilles informatiques et clouds.
Type de document :
Thèse
Other [cs.OH]. École normale supérieure de Cachan - ENS Cachan, 2011. English. <NNT : 2011DENS0067>


https://tel.archives-ouvertes.fr/tel-00653622
Contributeur : Abes Star <>
Soumis le : jeudi 10 mai 2012 - 16:03:00
Dernière modification le : vendredi 21 octobre 2016 - 01:29:51
Document(s) archivé(s) le : samedi 11 août 2012 - 02:36:16

Fichier

Moise2011.pdf
Version validée par le jury (STAR)

Identifiants

  • HAL Id : tel-00653622, version 3

Citation

Diana Moise. Optimizing data management for MapReduce applications on large-scale distributed infrastructures. Other [cs.OH]. École normale supérieure de Cachan - ENS Cachan, 2011. English. <NNT : 2011DENS0067>. <tel-00653622v3>

Exporter

Partager

Métriques

Consultations de
la notice

1101

Téléchargements du document

1104