High dimensional pattern learning applied to symbolic time-series - TEL - Thèses en ligne Accéder directement au contenu
Thèse Année : 2021

High dimensional pattern learning applied to symbolic time-series

Apprentissage de motifs en grande dimension appliqué aux séries temporelles

Résumé

Bien que l'adoption de l'apprentissage automatique dans de nombreux contextes appliqués ait connu une croissance rapide au cours de la dernière décennie, son utilisation dans certains environnements industriels reste problématique. La raison principale tient au conflit entre les procédures historiques établies et l'incertitude et le manque de transparence du processus de décision d'un processus d'apprentissage automatique. Une autre raison réside dans le fait que l'entrée d'un modèle d'apprentissage statistique traditionnel ne correspond pas au type ou à la qualité des données disponibles. La plupart des bases de données industrielles n'ont pas été développées pour l'analyse statistique mais pour se conformer a des exigences réglementaires ou effectuer des tâches administratives. En particulier, les données non numériques ou symboliques sont couramment utilisées pour leur versatilité. Des exemples de telles données sont les documents textuels, les séquences d'événements d'un journal d'erreur ou encore les séquences d'ADN. Le nombre exponentiel de combinaisons possibles domine généralement la complexité associée à l'apprentissage d'informations pertinentes à partir de symboles. Le cadre applicatif et la motivation première de cette thèse sont de concevoir des méthodes efficaces, lisibles par l'homme pour la maintenance prédictive du parc ferroviaire français. A cette fin, nous proposons d'aller au-delà des approches standard en utilisant une combinaison d'algorithmes traditionnels d'apprentissage automatique avec des techniques de minage de motifs pour permettant l'interaction avec la couche algorithmique de la couche de maintenance prédictive. L'objectif principal de cette thèse est d'aborder ces questions en proposant des approches qui peuvent être généralement appliquées à une séquence symbolique de données.À cette fin, nous introduisons la construction d'une solution complète d'apprentissage automatique pour la maintenance prédictive d'une grande flotte de véhicules ferroviaires renseignant sur la dynamique symbolique sous-jacente du processus de dégradation. Dans un second temps, nous proposons une nouvelle méthode pour les ensembles de données symboliques basée sur un modèle génératif bayésien pour les modèles qui peut augmenter la précision des scores de manière interprétable pour tout ensemble de données symboliques. En troisième lieu, nous introduisons une nouvelle méthode d'extraction progressive basée sur les complexités locales pour la dérivation de limites sur la convergence asymptotique de la fréquence de motifs. Enfin, une nouvelle méthode générale d'optimisation stochastique basée sur un échantillonnage alternatif est proposée. Cette méthode peut être appliquée au cas spécifique de l'apprentissage bayésien dans le cadre de l'inférence variationnelle. Dans ce cas, nous fournissons une preuve théorique et empirique de la supériorité de cette approche par rapport aux méthodes les plus avancées.
While the adoption of machine learning in many applied contexts has been growing rapidly in the last decade, there remain challenges to use it in certain industrial settings. The main reason is the clash between established historical procedures with the uncertainty and lack of transparency of a machine learning pipeline's decision process. Another reason is that the input needed to feed a traditional machine learning model does not fit the available type or quality of available data. Most industrial databases have not been developed for statistical analysis but to comply with the regulatory requirements and to perform administrative tasks. In particular, non-numerical or symbolic features are common as it is a versatile way of recording events of interest. Examples of such data are textual documents, sequence of log-events or DNA sequences. The exponential number of possible patterns typically dominates the complexity associated with learning relevant information from symbols. This thesis's applicative framework and primary motivation is to design efficient, human-readable and computationally tractable methods for predictive maintenance on the french train fleet. To that end, we propose to go beyond standard approaches by using a combination of traditional machine learning algorithms with pattern mining techniques to allow human experts to understand and interact with the algorithmic layer of the predictive maintenance pipeline. This thesis's main objective is to tackle these issues by proposing approaches that can be generally applied to a symbolic sequence of data with a human-readable output and trained at a reasonable computational cost. To that end, we begin by constructing a complete machine learning pipeline solution for predictive maintenance on a large fleet of rail vehicles that can be computed at a reasonable cost and provides valuable insight on the underlying symbol dynamic of the degradation process. As a second contribution, we propose a new method for symbolic data set based on a Bayesian generative model for patterns that can increases score accuracy in an interpretable fashion for any symbolic data set. As a third contribution, we introduce a new progressive mining method based on local complexities to obtain sharper statistical bounds on the pattern frequency. Finally, a new and general stochastic optimization method based on alternative sampling is proposed. This method can be applied to the specific use case of Bayesian learning through the Variational Inference setting. In this instance, we provide theoretical and empirical proof of the superiority of this approach compared to the most advanced methods.
Fichier principal
Vignette du fichier
92187_DIB_2021_archivage.pdf (22.2 Mo) Télécharger le fichier
Origine : Version validée par le jury (STAR)

Dates et versions

tel-03412862 , version 1 (03-11-2021)

Identifiants

  • HAL Id : tel-03412862 , version 1

Citer

Amir Dib. High dimensional pattern learning applied to symbolic time-series. Statistics [math.ST]. Université Paris-Saclay, 2021. English. ⟨NNT : 2021UPASM038⟩. ⟨tel-03412862⟩
187 Consultations
52 Téléchargements

Partager

Gmail Facebook X LinkedIn More