Apprentissage machine appliqué à l’analyse et à la prédiction des défaillances dans les systèmes HPC

Marc Platini

Résumé

With the increase in size of supercomputers, also increases the number of failures or abnormal events. This increase of the number of failures reduces the availability of these systems. To manage these failures and be able to reduce their impact on HPC systems, it is important to implement solutions to understand the failures and to predict them. HPC systems produce a large amount of monitoring data that contains useful information about the status of these systems. However, the analysis of these data is difficult and can be very tedious because these data reflect the complexity and the size of HPC systems. The work presented in this thesis proposes to use machine-learning-based solutions to analyse these data in an automated way. More precisely, this thesis presents two main contributions : the first one focuses on the prediction of processors overheating events in HPC systems, the second one focuses on the analysis and the highlighting of the relationships between the events present in the system logs. Both contributions are evaluated on real data from a large HPC system used in production. To predict CPU overheating events, we propose a solution that uses only the temperature of the CPUs. It is based on the analysis of the general shape of the temperature prior to an overheating event and on the automated learning of the correlations between this shape and overheating events using a supervised learning model. The use of the general curve shape and a supervised learning model allows learning using temperature data with low accuracy and using a limited number of overheating events. The evaluation of the solution shows that it is able to predict overheating events several minutes in advance with high accuracy and recall. Furthermore, the evaluation of these results shows that it is possible to use preventive actions based on the predictions made by the solution to reduce the impact of overheating events on the system. To analyze and to extract in an automated way the causal relations between the events described in the HPC system logs, we propose an unconventional use of a deep machine learning model. Indeed, this type of model is classically used for prediction tasks. Thanks to the addition of a new layer proposed by state-of-the-art contributions of the machine learning community, it is possible to determine the weight of the algorithm inputs associated to its prediction. Using this information, we are able to detect the causal relations between the different events. The evaluation of the solution shows that it is able to extract the causal relations of the vast majority of events occurring in an HPC system. Moreover, its evaluation by administrators validates the highlighted correlations. Both contributions and their evaluations show the benefit of using machine learning solutions for understanding and predicting failures in HPC systems by automating the analysis of supervision data.

Les systèmes informatiques dédiés à la haute performance (HPC) se livrent à une course à la puissance de calcul. Cette course se concrétise principalement par une augmentation de leur taille et de leur complexité. Cependant, cette augmentation entraîne des défaillances fréquentes qui peuvent réduire la disponibilité des systèmes HPC. Pour gérer ces défaillances et être capable de réduire leur influence sur les systèmes HPC, il est important de mettre en place des solutions permettant de comprendre les défaillances, voire de les prédire. En effet, les systèmes HPC produisent une grande quantité de données de supervision qui contiennent de nombreuses informations utiles à propos de leur état de fonctionnement. Cependant, l’analyse de ces données n’est pas facile à réaliser et peut être très fastidieuse car elles reflètent la complexité et la taille des systèmes HPC. Les travaux présentés dans cette thèse proposent d’utiliser des solutions d’apprentissage machine pour réaliser de manière automatisée cette analyse. De manière plus précise, cette thèse présente deux contributions principales : la première s’intéresse à la prédiction des surchauffes des processeurs dans les systèmes HPC, la deuxième se concentre sur l’analyse et la mise en évidence des relations entre les événements présents dans les journaux systèmes. Ces deux contributions sont évaluées sur des données réelles provenant d’un système HPC de grande taille utilisé en production. Pour prédire les surchauffes de processeur, nous proposons une solution qui utilise uniquement la température des processeurs. Elle repose sur l’analyse de la forme générale de la température avant un événement de surchauffe et sur l’apprentissage automatisé des corrélations entre cette forme et les événements de surchauffe grâce à un modèle d’apprentissage supervisé. L’utilisation de la forme générale des courbes et d’un modèle d’apprentissage supervisé permet l’apprentissage en utilisant des données de température avec une faible précision et en utilisant un nombre de cas de surchauffe restreint. L’évalua- tion de la solution montre qu’elle est capable de prédire plusieurs minutes en avance les surchauffes avec une précision et un rappel élevés. De plus, l’évaluation de ces résultats montre qu’il est possible d’utiliser des actions préventives reposant sur les prédictions faites par la solution pour réduire l’influence des surchauffes sur le système. Pour analyser et mettre en évidence de manière automatisée les relations causales entre dans les événements décrits dans les journaux des systèmes HPC, nous proposons une utilisation détournée d’un modèle d’apprentissage machine profond. En effet, ce type de modèle est classiquement utilisé pour des tâches de prédiction. Grâce à l’ajout d’une nouvelle couche proposée par des travaux de l’état de l’art étudiant les méthodes d’apprentissage machine, il est possible de déterminer l’importance des entrées de l’algorithme dans sa prédiction. En utilisant les informations sur l’importance des entrées, nous sommes capables de reconstruire les relations entre les différents événements. L’évaluation de la solution montre qu’elle est capable de mettre en évidence les relations de la grande majorité des événements survenant sur un système HPC. De plus, son évaluation par des administrateurs montre la validité des corrélations mises en évidence. Les deux contributions et leurs évaluations montrent le bénéfice de l’utilisation de solutions d’apprentissage machine pour la compréhension et la prédiction des défaillances dans les systèmes HPC en automatisant l’analyse des données de supervision.

Machine learning applied to the analysis and the prediction of failures in HPC systems

Apprentissage machine appliqué à l’analyse et à la prédiction des défaillances dans les systèmes HPC

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Partager