Skip to Main content Skip to Navigation
Theses

Concevoir et partager des workflows d’analyse de données : application aux traitements intensifs en bioinformatique

François Moreews 1, 2
2 GenScale - Scalable, Optimized and Parallel Algorithms for Genomics
Inria Rennes – Bretagne Atlantique , IRISA-D7 - GESTION DES DONNÉES ET DE LA CONNAISSANCE
Résumé : Dans le cadre d'une démarche d'Open science, nous nous intéressons aux systèmes de gestion de workflows (WfMS) scientifiques et à leurs applications pour l'analyse de données intensive en bioinformatique. Nous partons de l'hypothèse que les WfMS peuvent évoluer pour devenir des plates-formes pivots capables d'accélérer la mise au point et la diffusion de méthodes d'analyses innovantes. Elles pourraient capter et fédérer autour d'une thématique disciplinaire non seulement le public actuel des consommateurs de services mais aussi celui des producteurs de services. Pour cela, nous considérons que ces environnements doivent à la fois être adaptés aux pratiques des scientifiques concepteurs de méthodes et fournir un gain de productivité durant la conception et le traitement. Ces contraintes nous amènent à étudier la capture rapide des workflows, la simplification de l'intégration des tâches techniques, comme le parallélisme nécessaire au haut-débit, et la personnalisation du déploiement. Tout d'abord, nous avons défini un langage graphique DataFlow expressif, adapté à la capture rapide des workflows. Celui-ci est interprétable par un moteur de workflows basé sur un nouveau modèle de calcul doté de performances élevées, obtenues par l'exploitation des multiples niveaux de parallélisme. Nous présentons ensuite une approche de conception orientée modèle qui facilite la génération du parallélisme de données et la production d'implémentations adaptées à différents contextes d'exécution. Nous décrivons notamment l'intégration d'un métamodèle des composants et des plates-formes, employé pour automatiser la configuration des dépendances des workflows. Enfin, dans le cas du modèle Container as a Service (CaaS), nous avons élaboré une spécification de workflows intrinsèquement diffusable et ré-exécutable. L'adoption de ce type de modèle pourrait déboucher sur une accélération des échanges et de la mise à disposition des chaînes de traitements d'analyse de données.
Document type :
Theses
Complete list of metadatas

Cited literature [154 references]  Display  Hide  Download

https://tel.archives-ouvertes.fr/tel-01308297
Contributor : Abes Star :  Contact
Submitted on : Wednesday, April 27, 2016 - 3:02:27 PM
Last modification on : Friday, July 10, 2020 - 4:15:29 PM
Document(s) archivé(s) le : Thursday, July 28, 2016 - 10:50:14 AM

File

MOREEWS_Francois.pdf
Version validated by the jury (STAR)

Identifiers

  • HAL Id : tel-01308297, version 1

Citation

François Moreews. Concevoir et partager des workflows d’analyse de données : application aux traitements intensifs en bioinformatique. Bio-informatique [q-bio.QM]. Université Rennes 1, 2015. Français. ⟨NNT : 2015REN1S089⟩. ⟨tel-01308297⟩

Share

Metrics

Record views

595

Files downloads

3287