Designing scientific workflows following a structure and provenance-aware strategy

Jiuqiang Chen 1, 2
2 AMIB - Algorithms and Models for Integrative Biology
LIX - Laboratoire d'informatique de l'École polytechnique [Palaiseau], LRI - Laboratoire de Recherche en Informatique, UP11 - Université Paris-Sud - Paris 11, Inria Saclay - Ile de France
Résumé : Les systèmes de workflows disposent de modules de gestion de provenance qui collectent les informations relatives aux exécutions (données consommées et produites) permettant d'assurer la reproductibilité d'une expérience. Pour plusieurs raisons, la complexité de la structure du workflow et de ses d'exécutions est en augmentation, rendant la réutilisation de workflows plus difficile. L'objectif global de cette thèse est d'améliorer la réutilisation des workflows en fournissant des stratégies pour réduire la complexité des structures de workflow tout en préservant la provenance. Deux stratégies sont introduites. Tout d'abord, nous introduisons SPFlow un algorithme de réécriture de workflow scientifique préservant la provenance et transformant tout graphe acyclique orienté (DAG) en une structure plus simple, série-parallèle (SP). Ces structures permettent la conception d'algorithmes polynomiaux pour effectuer des opérations complexes sur les workflows (par exemple, leur comparaison) alors que ces mêmes opérations sont associées à des problèmes NP-difficile pour des structures générales de DAG. Deuxièmement, nous proposons une technique capable de réduire la redondance présente dans les workflow en détectant et supprimant des motifs responsables de cette redondance, nommés "anti-patterns". Nous avons conçu l'algorithme DistillFlow capable de transformer un workflow en un workflow sémantiquement équivalent "distillé", possédant une structure plus concise et dans laquelle on retire autant que possible les anti-patterns. Nos solutions (SPFlow et DistillFlow) ont été testées systématiquement sur de grandes collections de workflows réels, en particulier avec le système Taverna. Nos outils sont disponibles à l'adresse: https://www.lri.fr/~chenj/.
Liste complète des métadonnées

Littérature citée [87 références]  Voir  Masquer  Télécharger

https://tel.archives-ouvertes.fr/tel-00931122
Contributeur : Sarah Cohen-Boulakia <>
Soumis le : mardi 14 janvier 2014 - 22:37:14
Dernière modification le : mercredi 23 janvier 2019 - 10:29:27
Document(s) archivé(s) le : mardi 15 avril 2014 - 16:28:54

Identifiants

  • HAL Id : tel-00931122, version 1

Collections

Citation

Jiuqiang Chen. Designing scientific workflows following a structure and provenance-aware strategy. Databases [cs.DB]. Université Paris Sud - Paris XI, 2013. English. 〈tel-00931122〉

Partager

Métriques

Consultations de la notice

489

Téléchargements de fichiers

369