A science-gateway for workflow executions : Online and non-clairvoyant self-healing of workflow executions on grids

Résumé : Les science-gateways, telles que la Plate-forme d’Imagerie Virtuelle (VIP), permettent l’accès à un grand nombre de ressources de calcul et de stockage de manière transparente. Cependant, la quantité d’informations et de couches intergicielles utilisées créent beaucoup d’échecs et d’erreurs de système. Dans la pratique, ce sont souvent les administrateurs du système qui contrôlent le déroulement des expériences en réalisant des manipulations simples mais cruciales, comme par exemple replanifier une tâche, redémarrer un service, supprimer une exécution défaillante, ou copier des données dans des unités de stockages fiables. De cette manière, la qualité de service fournie est correcte mais demande une intervention humaine importante. Automatiser ces opérations constitue un défi pour deux raisons. Premièrement, la charge de la plate-forme est en ligne, c’est-à-dire que de nouvelles exécutions peuvent se présenter à tout moment. Aucune prédiction sur l’activité des utilisateurs n’est donc possible. De fait, les modèles, décisions et actions considérés doivent rester simples et produire des résultats pendant l’exécution de l’application. Deuxièmement, la plate-forme est non-clairvoyante à cause du manque d’information concernant les applications et ressources en production. Les ressources de calcul sont d’ordinaire fournies dynamiquement par des grappes hétérogènes, des clouds ou des grilles de volontaires, sans estimation fiable de leur disponibilité ou de leur caractéristiques. Les temps d’exécution des applications sont difficilement estimables également, en particulier dans le cas de ressources de calculs hétérogènes. Dans ce manuscrit, nous proposons un mécanisme d’auto-guérison pour la détection autonome et traitement des incidents opérationnels dans les exécutions des chaînes de traitement. Les objets considérés sont modélisés comme des automates finis à états flous (FuSM) où le degré de pertinence d’un incident est déterminé par un processus externe de guérison. Les modèles utilisés pour déterminer le degré de pertinence reposent sur l’hypothèse que les erreurs, par exemple un site ou une invocation se comportant différemment des autres, sont rares. Le mécanisme d’auto-guérison détermine le seuil de gravité des erreurs à partir de l’historique de la plate-forme. Un ensemble d’actions spécifiques est alors sélectionné par règle d’association en fonction du niveau d’erreur.
Type de document :
Thèse
Computer Aided Engineering. INSA de Lyon, 2013. English. < NNT : 2013ISAL0115 >
Liste complète des métadonnées

https://tel.archives-ouvertes.fr/tel-01124002
Contributeur : Abes Star <>
Soumis le : vendredi 6 mars 2015 - 01:32:40
Dernière modification le : jeudi 29 juin 2017 - 12:40:31
Document(s) archivé(s) le : dimanche 7 juin 2015 - 10:25:18

Fichier

2013ISAL0115.pdf
Version validée par le jury (STAR)

Identifiants

  • HAL Id : tel-01124002, version 1

Collections

Citation

Rafael Ferreira Da Silva. A science-gateway for workflow executions : Online and non-clairvoyant self-healing of workflow executions on grids. Computer Aided Engineering. INSA de Lyon, 2013. English. < NNT : 2013ISAL0115 >. <tel-01124002>

Partager

Métriques

Consultations de
la notice

96

Téléchargements du document

190