An Algebraic Approach for Scientific Workflows with Large Scale Data - TEL - Thèses en ligne Accéder directement au contenu
Thèse Année : 2011

An Algebraic Approach for Scientific Workflows with Large Scale Data

Une Approche Algébrique pour les Workflows Scientifiques Orientés-Données

Eduardo Ogasawara

Résumé

Scientific workflows have emerged as a basic abstraction for structuring and executing scientific experiments in computational simulations. In many situations, these workflows are computationally and data intensive, thus requiring execution in large-scale parallel computers. However, the parallelization of scientific workflows is low-level, ad hoc and labor-intensive, which makes it hard to exploit optimization opportunities. To address the problem of optimizing the parallel execution of scientific workflows, we propose an algebraic approach to represent the workflow and a parallel execution model that together enable the automatic optimization of the parallel execution of scientific workflows. We conducted a thorough validation of our approach using both real applications and synthetic data scenarios. The experiments were run in Chiron, a data-centric scientific workflow engine implemented to parallelize scientific workflow execution. Our experiments demonstrated excellent parallel performance improvements obtained and evidenced through our algebraic approach several optimization opportunities when compared to ad hoc workflow implementation.
Une Approche Algébrique pour les Workflows Scientifiques Orientés-Données
Os workflows científicos emergiram como uma abstração básica para estruturar experimentos científicos baseados em simulações computacionais. Em muitas situações, estes workflows são intensivos, seja computacionalmente seja quanto em relação à manipulação de dados, exigindo a execução em ambientes de processamento de alto desempenho. Entretanto, paralelizar a execução de workflows científicos requer programação trabalhosa, de modo ad hoc e em baixo nível de abstração, o que torna difícil a exploração das oportunidades de otimização. Visando a abordar o problema de otimizar a execução paralela de workflows científicos, esta tese propõe uma abordagem algébrica para especificar o workflow, bem como um modelo de execução que, juntos, possibilitam a otimização automática da execução paralela de workflows científicos. A tese apresenta uma avaliação ampla da abordagem usando tanto experimentos reais quanto dados sintéticos. Os experimentos foram avaliados no Chiron, um motor de execução de workflows desenvolvido para apoiar a execução paralela de workflows científicos. Os experimentos apresentaram resultados excelentes de paralelização na execução de workflows e evidenciaram, com a abordagem algébrica, diversas possibilidades de otimização de desempenho quando comparados a execuções paralelas de workflow de modo ad hoc.
Fichier principal
Vignette du fichier
Eduardo_final_phd_thesis.pdf (8.75 Mo) Télécharger le fichier

Dates et versions

tel-00653661 , version 1 (04-01-2012)
tel-00653661 , version 2 (19-04-2012)

Identifiants

  • HAL Id : tel-00653661 , version 2

Citer

Eduardo Ogasawara. An Algebraic Approach for Scientific Workflows with Large Scale Data. Databases [cs.DB]. Universidade Federal de Rio de Janeiro, 2011. Portuguese. ⟨NNT : ⟩. ⟨tel-00653661v2⟩
359 Consultations
773 Téléchargements

Partager

Gmail Facebook X LinkedIn More