Machine learning applied to the analysis and the prediction of failures in HPC systems
Apprentissage machine appliqué à l’analyse et à la prédiction des défaillances dans les systèmes HPC
Résumé
With the increase in size of supercomputers, also increases the number of failures or
abnormal events. This increase of the number of failures reduces the availability of these
systems.
To manage these failures and be able to reduce their impact on HPC systems, it is
important to implement solutions to understand the failures and to predict them. HPC
systems produce a large amount of monitoring data that contains useful information about
the status of these systems. However, the analysis of these data is difficult and can be very
tedious because these data reflect the complexity and the size of HPC systems. The work
presented in this thesis proposes to use machine-learning-based solutions to analyse these
data in an automated way. More precisely, this thesis presents two main contributions :
the first one focuses on the prediction of processors overheating events in HPC systems,
the second one focuses on the analysis and the highlighting of the relationships between
the events present in the system logs. Both contributions are evaluated on real data from
a large HPC system used in production.
To predict CPU overheating events, we propose a solution that uses only the temperature
of the CPUs. It is based on the analysis of the general shape of the temperature prior
to an overheating event and on the automated learning of the correlations between this
shape and overheating events using a supervised learning model. The use of the general
curve shape and a supervised learning model allows learning using temperature data with
low accuracy and using a limited number of overheating events. The evaluation of the
solution shows that it is able to predict overheating events several minutes in advance
with high accuracy and recall. Furthermore, the evaluation of these results shows that it is
possible to use preventive actions based on the predictions made by the solution to reduce
the impact of overheating events on the system.
To analyze and to extract in an automated way the causal relations between the
events described in the HPC system logs, we propose an unconventional use of a deep
machine learning model. Indeed, this type of model is classically used for prediction tasks.
Thanks to the addition of a new layer proposed by state-of-the-art contributions of the
machine learning community, it is possible to determine the weight of the algorithm inputs
associated to its prediction. Using this information, we are able to detect the causal
relations between the different events. The evaluation of the solution shows that it is able
to extract the causal relations of the vast majority of events occurring in an HPC system.
Moreover, its evaluation by administrators validates the highlighted correlations.
Both contributions and their evaluations show the benefit of using machine learning
solutions for understanding and predicting failures in HPC systems by automating the
analysis of supervision data.
Les systèmes informatiques dédiés à la haute performance (HPC) se livrent à une course
à la puissance de calcul. Cette course se concrétise principalement par une augmentation de
leur taille et de leur complexité. Cependant, cette augmentation entraîne des défaillances
fréquentes qui peuvent réduire la disponibilité des systèmes HPC.
Pour gérer ces défaillances et être capable de réduire leur influence sur les systèmes HPC,
il est important de mettre en place des solutions permettant de comprendre les défaillances,
voire de les prédire. En effet, les systèmes HPC produisent une grande quantité de données
de supervision qui contiennent de nombreuses informations utiles à propos de leur état de
fonctionnement. Cependant, l’analyse de ces données n’est pas facile à réaliser et peut être
très fastidieuse car elles reflètent la complexité et la taille des systèmes HPC. Les travaux
présentés dans cette thèse proposent d’utiliser des solutions d’apprentissage machine pour
réaliser de manière automatisée cette analyse. De manière plus précise, cette thèse présente
deux contributions principales : la première s’intéresse à la prédiction des surchauffes des
processeurs dans les systèmes HPC, la deuxième se concentre sur l’analyse et la mise en
évidence des relations entre les événements présents dans les journaux systèmes. Ces deux
contributions sont évaluées sur des données réelles provenant d’un système HPC de grande
taille utilisé en production.
Pour prédire les surchauffes de processeur, nous proposons une solution qui utilise
uniquement la température des processeurs. Elle repose sur l’analyse de la forme générale
de la température avant un événement de surchauffe et sur l’apprentissage automatisé
des corrélations entre cette forme et les événements de surchauffe grâce à un modèle
d’apprentissage supervisé. L’utilisation de la forme générale des courbes et d’un modèle
d’apprentissage supervisé permet l’apprentissage en utilisant des données de température
avec une faible précision et en utilisant un nombre de cas de surchauffe restreint. L’évalua-
tion de la solution montre qu’elle est capable de prédire plusieurs minutes en avance les
surchauffes avec une précision et un rappel élevés. De plus, l’évaluation de ces résultats
montre qu’il est possible d’utiliser des actions préventives reposant sur les prédictions
faites par la solution pour réduire l’influence des surchauffes sur le système.
Pour analyser et mettre en évidence de manière automatisée les relations causales entre
dans les événements décrits dans les journaux des systèmes HPC, nous proposons une
utilisation détournée d’un modèle d’apprentissage machine profond. En effet, ce type de
modèle est classiquement utilisé pour des tâches de prédiction. Grâce à l’ajout d’une nouvelle
couche proposée par des travaux de l’état de l’art étudiant les méthodes d’apprentissage
machine, il est possible de déterminer l’importance des entrées de l’algorithme dans sa
prédiction. En utilisant les informations sur l’importance des entrées, nous sommes capables
de reconstruire les relations entre les différents événements. L’évaluation de la solution
montre qu’elle est capable de mettre en évidence les relations de la grande majorité des
événements survenant sur un système HPC. De plus, son évaluation par des administrateurs
montre la validité des corrélations mises en évidence.
Les deux contributions et leurs évaluations montrent le bénéfice de l’utilisation de
solutions d’apprentissage machine pour la compréhension et la prédiction des défaillances
dans les systèmes HPC en automatisant l’analyse des données de supervision.
Origine : Fichiers produits par l'(les) auteur(s)
Loading...