Skip to Main content Skip to Navigation
Theses

Concevoir et partager des workflows d’analyse de données. Application aux traitements intensifs en bioinformatique

Résumé : Dans le cadre d’une démarche d’Open science, nous nous intéressons aux systèmes de gestion de workflows (WfMS) scientifiques et à leurs applications pour l’analyse de données intensive en bioinformatique. Nous partons de l’hypothèse que les WfMS peuvent évoluer pour devenir des plates-formes pivots capables d’accélérer la mise au point et la diffusion de méthodes d’analyses innovantes. Elles pourraient capter et fédérer autour d’une thématique disciplinaire non seulement le public actuel des consommateurs de services mais aussi celui des producteurs de services. Pour cela, nous considérons que ces environnements doivent à la fois être adaptés aux pratiques des scientifiques concepteurs de méthodes et fournir un gain de productivité durant la conception et le traitement. Ces contraintes nous amènent à étudier la capture rapide des workflows, la simplification de l’intégration des tâches techniques, comme le parallélisme nécessaire au haut-débit, et la personnalisation du déploiement. Tout d’abord, nous avons défini un langage graphique DataFlow expressif, adapté à la capture rapide des workflows. Celui-ci est interprétable par un moteur de workflows basé sur un nouveau modèle de calcul doté de performances élevées, obtenues par l’exploitation des multiples niveaux de parallélisme. Nous présentons ensuite une approche de conception orientée modèle qui facilite la génération du parallélisme de données et la production d’implémentations adaptées à différents contextes d’exécution. Nous décrivons notamment l’intégration d’un métamodèle des composants et des plates-formes, employé pour automatiser la configuration des dépendances des workflows. Enfin, dans le cas du modèle Container as a Service (CaaS), nous avons élaboré une spécification de workflows intrinsèquement diffusable et ré-exécutable. L’adoption de ce type de modèle pourrait déboucher sur une accélération des échanges et de la mise à disposition des chaînes de traitements d’analyse de données.
Document type :
Theses
Complete list of metadatas

Cited literature [154 references]  Display  Hide  Download

https://hal.inria.fr/tel-01233191
Contributor : Francois Moreews <>
Submitted on : Tuesday, November 24, 2015 - 4:10:37 PM
Last modification on : Tuesday, March 17, 2020 - 3:13:13 AM
Document(s) archivé(s) le : Saturday, April 29, 2017 - 1:51:45 AM

Licence


Distributed under a Creative Commons Attribution - NonCommercial - NoDerivatives 4.0 International License

Identifiers

  • HAL Id : tel-01233191, version 1

Citation

Francois Moreews. Concevoir et partager des workflows d’analyse de données. Application aux traitements intensifs en bioinformatique. Bio-informatique [q-bio.QM]. université de rennes 1, 2015. Français. ⟨tel-01233191⟩

Share

Metrics

Record views

699

Files downloads

1631