Efficient support for data-intensive scientific workflows on geo-distributed clouds

Résumé : D’ici 2020, l’univers numérique atteindra 44 zettaoctets puisqu’il double tous les deux ans. Les données se présentent sous les formes les plus diverses et proviennent de sources géographiquement dispersées. L’explosion de données crée un besoin sans précédent en terme de stockage et de traitement de données, mais aussi en terme de logiciels de traitement de données capables d’exploiter au mieux ces ressources informatiques. Ces applications à grande échelle prennent souvent la forme de workflows qui aident à définir les dépendances de données entre leurs différents composants. De plus en plus de workflows scientifiques sont exécutés sur des clouds car ils constituent une alternative rentable pour le calcul intensif. Parfois, les workflows doivent être répartis sur plusieurs data centers. Soit parce qu’ils dépassent la capacité d’un site unique en raison de leurs énormes besoins de stockage et de calcul, soit car les données qu’ils traitent sont dispersées dans différents endroits. L’exécution de workflows multisite entraîne plusieurs problèmes, pour lesquels peu de solutions ont été développées : il n’existe pas de système de fichiers commun pour le transfert de données, les latences inter-sites sont élevées et la gestion centralisée devient un goulet d’étranglement. Cette thèse présente trois contributions qui visent à réduire l’écart entre les exécutions de workflows sur un seul site ou plusieurs data centers. Tout d’abord, nous présentons plusieurs stratégies pour le soutien efficace de l’exécution des workflows sur des clouds multisite en réduisant le coût des opérations de métadonnées. Ensuite, nous expliquons comment la manipulation sélective des métadonnées, classées par fréquence d’accès, améliore la performance des workflows dans un environnement multisite. Enfin, nous examinons une approche différente pour optimiser l’exécution de workflows sur le cloud en étudiant les paramètres d’exécution pour modéliser le passage élastique à l’échelle.
Type de document :
Thèse
Computation and Language [cs.CL]. INSA de Rennes, 2017. English. 〈NNT : 2017ISAR0012〉
Liste complète des métadonnées

https://tel.archives-ouvertes.fr/tel-01645434
Contributeur : Abes Star <>
Soumis le : mercredi 13 décembre 2017 - 10:41:36
Dernière modification le : jeudi 11 janvier 2018 - 06:28:14

Fichier

These_DEF_PINEDA_Luis_pdfstar....
Version validée par le jury (STAR)

Identifiants

  • HAL Id : tel-01645434, version 2

Citation

Luis Eduardo Pineda Morales. Efficient support for data-intensive scientific workflows on geo-distributed clouds. Computation and Language [cs.CL]. INSA de Rennes, 2017. English. 〈NNT : 2017ISAR0012〉. 〈tel-01645434v2〉

Partager

Métriques

Consultations de la notice

79

Téléchargements de fichiers

21