Efficient Big Data Processing on Large-Scale Shared Platforms: Managing I/Os and Failures

Orcun Yildiz 1
1 KerData - Scalable Storage for Clouds and Beyond
Inria Rennes – Bretagne Atlantique , IRISA_D1 - SYSTÈMES LARGE ÉCHELLE
Résumé : En 2017 nous vivons dans un monde régi par les données. Les applications d’analyse de données apportent des améliorations fondamentales dans de nombreux domaines tels que les sciences, la santé et la sécurité. Cela a stimulé la croissance des volumes de données (le déluge du Big Data). Pour extraire des informations utiles à partir de cette quantité énorme d’informations, différents modèles de traitement des données ont émergé tels que MapReduce, Hadoop, et Spark. Les traitements Big Data sont traditionnellement exécutés à grande échelle (les systèmes HPC et les Clouds) pour tirer parti de leur puissance de calcul et de stockage. Habituellement, ces plateformes à grande échelle sont utilisées simultanément par plusieurs utilisateurs et de multiples applications afin d’optimiser l’utilisation des ressources. Bien qu’il y ait beaucoup d’avantages à partager de ces plateformes, plusieurs problèmes sont soulevés dès lors qu’un nombre important d’utilisateurs et d’applications les utilisent en même temps, parmi lesquels la gestion des E/S et des défaillances sont les principales qui peuvent avoir un impact sur le traitement efficace des données. Nous nous concentrons tout d’abord sur les goulots d’étranglement liés aux performances des E/S pour les applications Big Data sur les systèmes HPC. Nous commençons par caractériser les performances des applications Big Data sur ces systèmes. Nous identifions les interférences et la latence des E/S comme les principaux facteurs limitant les performances. Ensuite, nous nous intéressons de manière plus détaillée aux interférences des E/S afin de mieux comprendre les causes principales de ce phénomène. De plus, nous proposons un système de gestion des E/S pour réduire les dégradations de performance que les applications Big Data peuvent subir sur les systèmes HPC. Par ailleurs, nous introduisons des modèles d’interférence pour les applications Big Data et HPC en fonction des résultats que nous obtenons dans notre étude expérimentale concernant les causes des interférences d’E/S. Enfin, nous exploitons ces modèles afin de minimiser l’impact des interférences sur les performances des applications Big Data et HPC. Deuxièmement, nous nous concentrons sur l’impact des défaillances sur la performance des applications Big Data en étudiant la gestion des pannes dans les clusters MapReduce partagés. Nous présentons un ordonnanceur qui permet un recouvrement rapide des pannes, améliorant ainsi les performances des applications Big Data.
Type de document :
Thèse
Distributed, Parallel, and Cluster Computing [cs.DC]. ENS Rennes, 2017. English
Liste complète des métadonnées

Littérature citée [151 références]  Voir  Masquer  Télécharger

https://tel.archives-ouvertes.fr/tel-01671413
Contributeur : Orçun Yildiz <>
Soumis le : vendredi 22 décembre 2017 - 11:25:36
Dernière modification le : mercredi 16 mai 2018 - 11:24:13

Fichier

thesis.pdf
Fichiers produits par l'(les) auteur(s)

Identifiants

  • HAL Id : tel-01671413, version 1

Citation

Orcun Yildiz. Efficient Big Data Processing on Large-Scale Shared Platforms: Managing I/Os and Failures. Distributed, Parallel, and Cluster Computing [cs.DC]. ENS Rennes, 2017. English. 〈tel-01671413〉

Partager

Métriques

Consultations de la notice

1578

Téléchargements de fichiers

299