Automated Log-Based Anomaly Detection within Cloud Computing Infrastructures - TEL - Thèses en ligne Access content directly
Theses Year : 2023

Automated Log-Based Anomaly Detection within Cloud Computing Infrastructures

Détection automatisées des anomalies dans les infrastructures de Cloud Computing à l'aide des logs

Abstract

Cloud computing aims to optimize resource utilization while accommodating a large user base and elastic services. Within this context, cloud computing platforms bear the responsibility of managing their customers’ infrastructure. The management of an everexpanding number of IT resources poses a significant challenge. In this study, conducted in collaboration with 3DS OUTSCALE, a French public cloud provider, we investigate the potential of log data as a valuable source for automated anomaly detection within cloud computing platforms. Logs serve as a widely utilized information source for various purposes, including monitoring, diagnosing, performance evaluation, and maintenance. These logs are generated during runtime and provide insights into the current state of a system. However, achieving automated real-time anomaly detection based on log data remains a complex undertaking. The intricate nature of cloud computing platforms must be duly considered. Extracting relevant information from a multitude of logging sources and accounting for frequent code base evolution poses challenges and introduces the potential for errors. Furthermore, establishing log relationships within such systems is often an insurmountable task. Log parsing solutions aim to extract variables from the template of log messages. Our first contribution involves a comprehensive study of two state-of-the-art log parsing methods, investigating the impact of hyperparameter tuning and preprocessing on their accuracy. Given the laborious nature of labeling logs related to a cloud computing platform, we sought to identify potential generic values that enable accurate parsing across diverse scenarios. However, our research reveals the infeasibility of finding such requirements, thereby emphasizing the necessity for more robust parsing approaches. Our second contribution introduces USTEP, an innovative online log parsing approach that surpasses existing methods in terms of accuracy, efficiency, and robustness. Notably, USTEP achieves a constant worst-case parsing time complexity, distinguishing it from its predecessors for which the number of already detected templates is to be taken into account. Through a comparative analysis of five online log parsers using 13 open-source datasets and one derived from 3DS OUTSCALE systems, we demonstrate the superior performance of USTEP. Furthermore, we propose USTEP-UP, an architecture that enables the distributed execution of multiple USTEP instances. Our third contribution presents Monilog, a system architecture designed for automated log-based anomaly detection within log data streams. Monilog leverages model/metric pairs to predict log traffic patterns within a system and detect anomalies by identifying deviations in system behavior. Monilog forecasting models are powered by the recent advances in the deep learning field and is able to generate comprehensive reports that highlight the relevant system components and the associated applications. We implemented an instance of Monilog at cloud scale and conducted experimental analyses to evaluate its ability to forecast anomalous events, such as servers crashes resulting from virtualization issues. The results obtained strongly support our hypothesis regarding the utility of logs in detecting and predicting abnormal events. Our Monilog implementation successfully identified abnormal periods and provided valuable insights into the applications involved. With Monilog, we demonstrate the value of logs in predicting anomalies in such environments and provide a flexible architecture for future study. Our work on the parsing field with the proposal of USTEP and USTEP-UP not only provides us with additional information for building anomaly detection models but also has potential benefits for other log mining applications.
Les plateformes de Cloud Computing mettent à disposition de leurs clients différentes ressources informatiques à la demande. Cette externalisation rend les fournisseurs garants de la haute disponibilité et de la qualité de leurs services. La gestion d'un parc de ressources mutualisées en croissance constante demande de minimiser l'intervention humaine afin de suivre le changement d'échelle des infrastructures et d'éviter les erreurs. Dans cette thèse, réalisée en collaboration avec 3DS OUTSCALE, un fournisseur français de cloud public, nous explorons le potentiel des logs informatiques pour la détection automatique d'anomalies au sein des plateformes de cloud computing. Les journaux de logs sont écrits pendant l'exécution et fournissent des informations sur l'état actuel d'un système. Ils sont déjà largement utilisés à des fins diverses, telles que la surveillance, le diagnostic, l'évaluation des performances ou la maintenance. Cependant, l'utilisation des logs pour la détection automatique et en temps réel d'anomalies reste compliquée. La nature complexe des plateformes de cloud computing doit être dûment prise en compte. L'extraction d'informations pertinentes à partir d'une multitude de sources de logs et les évolutions fréquentes de la base de code posent des défis et introduisent des risques d'erreurs. De plus, établir des relations entre les logs au sein de tels systèmes est souvent une tâche impossible. Les solutions de structuration visent à retrouver les variables dans les messages des logs. Notre première contribution implique une étude approfondie de deux de ces méthodes en examinant l'impact de l'optimisation des hyperparamètres et du prétraitement sur leur précision. Étant donné la nature laborieuse de l'étiquetage des logs dans le contexte des plateformes de cloud computing, nous avons cherché à identifier des valeurs génériques potentielles permettant une analyse précise dans divers scénarios. Cependant, nos recherches révèlent l'impossibilité de trouver de telles valeurs, soulignant ainsi la nécessité d'approches de structuration des logs plus robustes. Notre deuxième contribution présente USTEP, une approche innovante de structuration des logs en ligne qui surpasse les méthodes existantes en termes de précision, d'efficacité et de robustesse. USTEP atteint une complexité temporelle d'analyse constante dans le pire des cas, le distinguant ainsi de ses prédécesseurs pour qui le nombre de patrons déjà découverts ralentit la vitesse de structuration. À travers une analyse comparative de cinq méthodes de structuration en ligne des logs utilisant 13 ensembles de données open source et un dérivé des systèmes de 3DS OUTSCALE, nous démontrons les performances supérieures d'USTEP. De plus, nous proposons USTEP-UP, une architecture qui permet l'exécution distribuée de plusieurs instances d'USTEP. Notre troisième contribution présente Monilog, une architecture système conçue pour la détection automatique des anomalies à partir de journaux de logs. Monilog exploite des paires modèle/métrique pour prédire l'activité logs au sein d'un système et détecter les anomalies en identifiant des changements de comportement. Les capacités prédictives de Monilog sont reforcées par notre utilisation des récentes avancées dans le domaine de l'apprentissage automatique. Il génère également des rapports détaillés mettant en évidence les composants impliqués et les applications associées à une anomalie. Nous avons implémenté une instance de Monilog à l'échelle d'une plateforme cloud et mené des analyses expérimentales pour évaluer sa capacité à prévoir des événements anormaux, tels que des pannes de serveur résultant de problèmes de virtualisation. Les résultats obtenus soutiennent notre hypothèse concernant l'utilité des logs pour la détection et la prévision d'événements anormaux. Notre implémentation de Monilog a identifié avec succès des périodes anormales et fournie des informations précieuses sur les applications concernées.
Fichier principal
Vignette du fichier
VERVAET_Arthur_these_2023.pdf (1.46 Mo) Télécharger le fichier
Origin : Version validated by the jury (STAR)

Dates and versions

tel-04461417 , version 1 (16-02-2024)

Identifiers

  • HAL Id : tel-04461417 , version 1

Cite

Arthur Vervaet. Automated Log-Based Anomaly Detection within Cloud Computing Infrastructures. Information Retrieval [cs.IR]. Sorbonne Université, 2023. English. ⟨NNT : 2023SORUS548⟩. ⟨tel-04461417⟩
69 View
86 Download

Share

Gmail Facebook X LinkedIn More