Skip to Main content Skip to Navigation
Theses

Multisite Management of Scientific Workflows in the Cloud

Ji Liu 1, 2, 3
1 ZENITH - Scientific Data Management
LIRMM - Laboratoire d'Informatique de Robotique et de Microélectronique de Montpellier, CRISAM - Inria Sophia Antipolis - Méditerranée
Résumé : Les workflows scientifiques (SWfs) permettent d’exprimer facilement des activités de calcul sur des données, comme charger des fichiers d’entrée, exécuter des analyses, et agréger les résultats. Un SWf décrit les dépendances entre les activités, généralement comme un graphe où les noeuds sont des activités et les arêtes représentent les dépendances entre les activités. Les SWfs sont souvent orientés-données, manipulant de grandes quantités de données. Afin d’éxecuter des SWfs orientés-données dans un temps raisonnable, les systèmes de gestion de workflows scientifiques (SWfMSs) peuvent être utilisés et déployésdans un environnement de calcul à haute performance (HPC). Parce qu’il offre des services stables et des ressources de calcul et de stockage quasiment infinies à un coût raisonnable, le cloud devient attractif pour l’exécution de SWfs. Un cloud est généralement constitué de plusieurs sites (ou data centers), chacun avec ses propres ressources et données. L’exécution de SWf doit alors être adaptée à un cloud multisite tout en exploitant les ressources de calcul ou de stockage distribuées. Dans cette thèse, nous étudions le problème d’exécution efficace des SWfs orientésdonnées dans un cloud multisite. La plupart des SWfMSs ont été conçus pour des clusters ou grilles, et quelques uns ont été étendus pour le cloud, en les déployant simplement dans des machines virtuelles (VMs), mais seulement pour un seul site. Pour résoudre le problème dans le cas multisite, nous proposons une approche distribuée et parallèle qui exploite les ressources disponibles de chaque site. Pour exploiter le parallélisme, nous utilisons une approche algébrique, qui permet d’exprimer les activités en utilisant des opérateurs et les transformer automatiquement en de multiples tâches. La principale contribution de la thèse est une architecture multisite et des techniques distribuées pour exécuter les SWfs. Les principales techniques utilisent des algorithmes de partitionnement de SWf, un algorithme dynamique pour le provisionnement de VMs, un algorithme d’ordonnancement des activités et un algorithme d’ordonnancement de tâches. Les algorithmes de partitionnement de SWfs décomposent un SWf en plusieurs fragments, chacun pour un site différent. L’algorithme dynamique pour le provisionnement de VMs est utilisé pour créer une combinaison optimale de VMs pour exécuter des fragments à chaque site. L’algorithme d’ordonnancement des activités distribue les fragments vers les sites, selon un modèle de coût multi-objectif, qui combine à la fois temps d’exécution et coût monétaire. L’algorithme d’ordonnancement de tâches distribue directement des tâches sur les différents sites en réalisant l’équilibrage de charge au niveau de chaque site. Nos expérimentations montrent que notre approche peut réduire considérablement le coût global de l’exécution de SWfs dans un cloud multisite.
Complete list of metadatas

Cited literature [175 references]  Display  Hide  Download

https://tel.archives-ouvertes.fr/tel-01400625
Contributor : Ji Liu <>
Submitted on : Monday, December 12, 2016 - 9:40:09 AM
Last modification on : Tuesday, March 17, 2020 - 1:50:17 AM
Document(s) archivé(s) le : Tuesday, March 28, 2017 - 12:06:44 AM

Identifiers

  • HAL Id : tel-01400625, version 2

Collections

Citation

Ji Liu. Multisite Management of Scientific Workflows in the Cloud. Distributed, Parallel, and Cluster Computing [cs.DC]. Université de Montpellier, 2016. English. ⟨tel-01400625v2⟩

Share

Metrics

Record views

713

Files downloads

727