Addressing the Challenges of I/O Variability in Post-Petascale HPC Simulations - TEL - Thèses en ligne Accéder directement au contenu
Thèse Année : 2014

Addressing the Challenges of I/O Variability in Post-Petascale HPC Simulations

Relever les défis de la variabilité des E/S dans les simulations HPC post-petaflopiques

Résumé

Million-core supercomputers have become a reality in 2012 with LLNL's Sequoia supercomputer. Following Moore's law, Exascale machines (capable of 10E18 floating point operations per second) are expected by 2018. Such an immense computational power is used in many research areas, including earth sciences, biology, climate, or cosmology, where large-scale simulations are conducted to understand physical phenomena better. These simulations aim to replace real experiments that are either too expensive, irreproducible or simply unfeasible. But larger simulations on larger machines lead to the production of larger amounts of data. These data need to be efficiently stored and processed in order to retrieve scientific insights. The traditional approach to data management consists of storing the output of the simulation during its run, move it and analyze it later offline. With an increasing gap between the performance of storage systems and the computation capabilities of recent post-Petascale supercomputers, this approach becomes unsustainable. This Ph.D. thesis explores new approaches to data management for post-Petascale supercomputers. We first introduce the Damaris approach, which leverages the multicore nature of recent machines to offload data-management tasks into dedicated cores. We study in particular how Damaris can be used to hide the variability in I/O (Input/Output) performance, and to provide in situ visualization capabilities to simulations in a way that does not impact their performance. We then use Damaris to evaluate the energy consumption of various data management approaches, including the use of dedicated I/O nodes. We then study the effect of multi-application I/O contention on the performance of the storage system. We propose the CALCioM approach, which provides a coordination layer between distinct applications to mitigate I/O interference. In regard to access patterns, it has been observed that most applications have a repetitive behavior with respect to I/O, and that a model of this behavior can be useful to many systems (including CALCioM, but also any scheduler, caching or prefetching system). Based on this, we propose Omnisc'IO, an approach that leverages grammars to predict the spatial and temporal access patterns of HPC simulations at run time. This thesis includes results of experiments conducted with real scientific simulations, including CM1, GTC, LAMMPS and Nek5000, on real petascale and post-petascale platforms, including NCSA's Blue Waters, ORNL's Titan, NICS's Kraken and ANL's Intrepid.
La barre du million de coeurs a été atteinte en 2012 avec le supercalculateur Sequoia à LLNL et, en suivant la loi de Moore, des supercalculateurs dits Exascale (atteignant 10E18 flops) sont attendus pour 2018. Une telle puissance de calcul est mise à profit dans de nombreux domaines de recherche tels que les sciences de la Terre, la biologie, le climat ou l'astrophysique, domaines dans lesquels les simulations à large échelle sont employées pour mieux comprendre les phénomènes physiques qui nous entourent. Ces simulations ont vocation de remplacer des expériences réelles qui peuvent être trop coûteuses, trop dangereuses ou simplement irréalisables. Mais des machines de plus en plus grosses mènent à une production accrue de données. Ces données doivent être stockées et traitées efficacement en vue d'en tirer un résultat scientifique. L'approche traditionnelle de gestion de données consiste à stocker les données produites par la simulation dans des fichiers pendant que celle-ci s'exécute, et à analyser ces fichiers plus tard, lorsque la simulation est terminée. Alors que le fossé s'élargit entre les performances des supercalculateurs et les performances de leurs systèmes de stockage, cette approche devient difficilement soutenable. Cette thèse de doctorat explore de nouvelles approches pour la gestion de données dans les supercalculateurs post-pétaflopiques. Nous commençons par présenter Damaris, une approche tirant parti des noeuds multicoeurs afin de dédier des coeurs aux tâches d'entrées-sorties (E/S). Nous étudions notamment comment Damaris permet de cacher la variabilité des E/S, et comment il peut permettre la visualisation in situ des simulations sans en affecter les performances. Enfin grâce à Damaris nous évaluons la consommation énergétique de plusieurs approches pour les E/S. Dans un deuxième temps, nous étudions l'effet de la concurrent inter-application sur les performances des systèmes de stockage. Nous proposons CALCioM, une approche fournissant une couche de coordination entre applications distinctes, et permet d'éviter les interférences d'E/S. Constatant que la plupart des applications HPC ont un comportement répétitif en termes d'E/S, nous proposons Omnisc'IO, une approche qui se base sur des grammaires formelles pour prédire les caractéristiques spatiales et temporelles des futurs accès E/S en temps réel. Cette thèse inclut des résultats d'expériences réalisées avec des simulations scientifiques réelles: CM1, GTC, LAMMPS et Nek5000, sur des plateformes post-petaflopiques telles que Blue Waters (NCSA), Titan (ORNL), Kraken (NICS) et Intrepid (ANL).
Fichier principal
Vignette du fichier
thesis_MatthieuDorier.pdf (4.65 Mo) Télécharger le fichier
Loading...

Dates et versions

tel-01099105 , version 1 (31-12-2014)

Identifiants

  • HAL Id : tel-01099105 , version 1

Citer

Matthieu Dorier. Addressing the Challenges of I/O Variability in Post-Petascale HPC Simulations. Distributed, Parallel, and Cluster Computing [cs.DC]. Ecole Normale Supérieure de Rennes, 2014. English. ⟨NNT : ⟩. ⟨tel-01099105⟩
956 Consultations
1020 Téléchargements

Partager

Gmail Facebook X LinkedIn More