High-Performance Big Data Management Across Cloud Data Centers - TEL - Thèses en ligne Accéder directement au contenu
Thèse Année : 2014

High-Performance Big Data Management Across Cloud Data Centers

Résumé

The easily-accessible computation power offered by cloud infrastructures coupled with the revolution of Big Data are expanding the scale and speed at which data analysis is performed. The cloud resources for computation and storage are spread among globally distributed data centers. Enabling fast data transfers in such scenarios becomes particularly important for scientific applications for which moving the processing close to data is rather expensive or not feasible (e.g. genome mapping, high-energy physics simulations, large sensors network). Analyzing how clouds can become “Big Data - friendly”, and what are the best options to provide data-oriented cloud services to address applications needs are the key goals of this thesis. In this talk, we present our contributions for providing high performance data management for applications running across multiple cloud data centers. We start by focusing on the scalability aspects of single-site processing and show how the MapReduce model can be extended across multi-sites. Next, we present a transfer service architecture that enables configurable cost-performance optimizations for inter-site transfers. This transfer scheme is then leveraged in the context of real-time streaming across cloud data centers. Finally, we investigate the viability of leveraging this data movement solution as a cloud-provided service, following a Transfer-as-a-Service paradigm based on a flexible pricing scheme.
La puissance de calcul facilement-accessible offert par les infrastructures cloud couplés avec la révolution du "Big Data" augmentent l'échelle et la vitesse à laquelle l'analyse des données est effectuée. Les ressources de cloud computing pour le calcul et le stockage sont répartis entre plusieurs centres de données répartis dans le monde. Permettant des transferts de données rapides dans de tels scénarios globales devient particulièrement importante pour les applications scientifiques pour lesquels déplaçant le traitement proche de données est assez coûteuse ou impossible. Analyser comment les clouds peuvent devenir "Big Data - friendly", et quelles sont les meilleures options pour fournir des services pour données cloud, pour répondre aux besoins des applications sont les principaux buts de cette thèse. Dans cette thèse, nous présentons nos contributions pour améliorer la performance de la gestion de données pour les applications exécutées sur plusieurs centres de données en cloud. Nous commençons avec les aspects concernant l’échelle du traitement de donnée sur un site, et continuons par la développements de solution de type MapReduce pour permettre de calculs entre plusieurs centres de données. Ensuite, nous présentons une architecture de service de transfert qui permet d’optimiser la rapport coût-performance pour les transferts. Ce service de transfert est ensuite exploité dans le contexte de la diffusion de donnée en temps-réel entre des centres de données de cloud. Enfin, nous étudions la viabilité de transférer cette solution vers le fournisseur de cloud, pour lui l’offrir ça comme un transfert-as-a-Service paradigme basé sur un système de tarification flexible.

Mots clés

Domaines

Informatique
Fichier principal
Vignette du fichier
thesis.pdf (7.37 Mo) Télécharger le fichier
Loading...

Dates et versions

tel-01093767 , version 1 (07-01-2015)
tel-01093767 , version 2 (26-04-2023)

Identifiants

  • HAL Id : tel-01093767 , version 1

Citer

Radu Tudoran. High-Performance Big Data Management Across Cloud Data Centers. Computer science. ENS Rennes, 2014. English. ⟨NNT : ⟩. ⟨tel-01093767v1⟩
1041 Consultations
7503 Téléchargements

Partager

Gmail Facebook X LinkedIn More