Resilient scheduling algorithms for large-scale platforms

Valentin Le Fèvre

Thèse Année : 2020

Resilient scheduling algorithms for large-scale platforms

Algorithmes d’ordonnancement tolérants aux fautes pour les plates-formes à large échelle

(1, 2)

1
2

Valentin Le Fèvre

Fonction : Auteur

Laboratoire de l'Informatique du Parallélisme

Optimisation des ressources : modèles, algorithmes et ordonnancement

Résumé

This thesis focuses on a major problem for the HPC community: resilience. Computing platforms are bigger and bigger in order to reach what we call exascale, i.e. a computing capacity of 10^18 FLOP/s but they suffer numerous failures. Reducing the execution time and handling the errors are two linked problems: for instance, replication (computing redudancy) decreases the number of critical failures but also decreases the number of available resources. In particular, this thesis focuses on several “checkpoint/restart” mechanisms.(saving the state of an application to restart from that save when a failure occurs): the first part investigates checkpointing on several levels, the use of additional resources to cope with system latency and checkpointing in generic task-graphs. The second part deals with optimal checkpointing strategies when coupled with replication (in linear task graphs, on heterogeneous platforms and with process duplication). The last part explores several scheduling problems linked to increasing disruptions in large-scale platforms.

Cette thèse se concentre sur un problème majeur dans le contexte du calcul haute performance : la résilience. Les machines de calcul étant de plus en plus grosses pour viser les 10^18 opérations de calcul par seconde (exascale), celles-ci sont sujettes à de nombreuses pannes. La réduction du temps de calcul et la gestion du nombre de fautes sont deux problématiques étroitement liées : par exemple la réplication (redondance de calcul) permet de subir moins d'erreurs mais induit uneune diminution du nombre de ressources disponibles. En particulier, cette thèse se concentre sur divers mécanismes de « checkpoint/restart » (sauvegarde de l'état d'une application pour repartir de celle-ci lors d'une panne): la première partie traite de checkpoints sur plusieurs niveaux, de l'utilisation de ressources supplémentaires pour palier la latence des systèmes, et de checkpoint dans des graphes de tâches quelconques. La deuxième partie traite de stratégies optimales de checkpoint quand elles sont couplées avec de la réplication (dans des chaines de tâches, sur des plates-formes hétérogènes et enfin avec de la duplication de processus). La dernière partie explore quelques problèmes d'ordonnancement liés aux perturbations croissantes dans les plates-formes à large échelle.

Mots clés

Checkpoint Resilience High performance computing (HPC) Exascale Modeling

Checkpoint Résilience Calcul haute performance Exascale Modèles informatiques

Domaines

Calcul parallèle, distribué et partagé [cs.DC] Algorithme et structure de données [cs.DS] Modélisation et simulation

Fichier principal

LE_FEVRE_Valentin_2020LYSEN019_These.pdf (5.59 Mo)

Origine : Version validée par le jury (STAR)

ABES STAR : Contact

https://theses.hal.science/tel-02947051

Soumis le : mercredi 23 septembre 2020-16:07:02

Dernière modification le : vendredi 26 avril 2024-05:17:18

Archivage à long terme le : jeudi 3 décembre 2020-16:16:30

Dates et versions

tel-02947051 , version 1 (23-09-2020)

Identifiants

HAL Id : tel-02947051 , version 1

Citer

Valentin Le Fèvre. Resilient scheduling algorithms for large-scale platforms. Distributed, Parallel, and Cluster Computing [cs.DC]. Université de Lyon, 2020. English. ⟨NNT : 2020LYSEN019⟩. ⟨tel-02947051⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

ENS-LYON CNRS INRIA UNIV-LYON1 STAR INRIA2 TDS-MACS THESES-ENS-LYON UDL

172 Consultations

398 Téléchargements

Resilient scheduling algorithms for large-scale platforms

Algorithmes d’ordonnancement tolérants aux fautes pour les plates-formes à large échelle

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager