Extraction de connaissances interprétables dans des séries temporelles

Maël Guilleme

Résumé

Energiency is a company that sells a platform toallow manufacturers to analyze their energy consumption and production data, represented in the form of time series. This platform integrates machine learning models to meet customer needs. The application of such models to time series encounters two problems: on the one hand, some classical machine learning approaches have been designed for tabular data and must be adapted to time series, on the other hand, the results of some approaches are difﬁcult for end users to understand. In the ﬁrst part, we adapt a method to search for occurrences of temporal rules on time series from machines and industrial infrastructures. A temporal rule captures successional relationships between behaviors in time series (e.g., a value peak followed by a trough). In industrial series, due to the presence of many external factors, these regular behaviours can be disruptive. Therefore, two occurrences of the same behaviour produce two sequences of slightly different values. Current methods for searching the occurrences of a rule use a distance measure to assess the similarity between sub-series. However, these measurements are not suitable for assessing the similarity of distorted series such as those in industrial settings. The ﬁrst contribution of this thesis is the proposal of a method for searching for occurrences of temporal rules capable of capturing this variability in industrial time series. For this purpose, the method integrates the use of elastic distance measure capable of assessing the similarity between slightly deformed time series. The second part of the thesis is devoted to the interpretability of time series classiﬁcation methods, i.e. the ability of a classiﬁer to return explanations for its results. These explanations must be understandable by a human. Classiﬁcation is the task of associating a time series with a category (e.g., a series of power consumption associated with the condition of themachine). For an end user inclined to make decisions based on a classiﬁer’s results, understanding the rationale behind those results is of great importance. Otherwise, it is like having blind conﬁdence in the classiﬁer. The second contribution of this thesis is an interpretable time series classiﬁer that can directly provide explanations for its results. This classiﬁer uses local information on time series to discriminate against them. We present how to extract an explanation for a result. Finally, the third contributionof this thesis is a method to explain aposteriori any result of any classiﬁer. This method can be used to explain the results of non-interpretable classiﬁers. This method learns an interpretable classiﬁer, called a proxy, on the neighbourhood of the time series whose classiﬁcation we want to explain. This proxy must mimic the behaviour of the classiﬁer to be explained in this neighborhood. We carried out an user study to evaluate the interpretability of our method.

Energiency est une entreprise qui vend à des industriels une plate-forme pour leur permettre d’analyser leurs données de consommation d’énergie et de production, représentées sous la forme de séries temporelles. Cette plate-forme intègre des modèles d’apprentissage automatique pour répondre aux besoins des clients. L’application de tels modèles sur des séries temporelles rencontre deux problèmes : d’une part certaines approches classiques d’apprentissage automatique ont été conçues pour des données tabulaires et doivent être adaptées aux séries temporelles, d’autre part les résultats de certaines approches sont difﬁcilement compréhensibles par les utilisateurs ﬁnaux. Dans la première partie, nous adaptons une méthode de recherche d’occurrences de règles temporelles sur des séries temporelles issues de machines et d’infrastructures industrielles. Une règle temporelle capture des relations de succession entre des comportements dans les séries temporelles (ex : un pic de valeur suivi d’un creux). Dans des séries industrielles, à cause de la présence de nombreux facteurs extérieurs, ces comportements réguliers peuvent présenter des perturbations. Par conséquent, deux occurrences du même comportement produisent deux suites de valeurs légèrement différentes. Les méthodes de recherche d’occurrences de règles temporelles actuelles utilisent une mesure de distance pour évaluer la similarité entre des sous-séries. Cependant, ces mesures ne sont pas adaptées pour évaluer la similarité de séries déformées tel que dans les séries temporelles industrielles. La première contribution de cette thèse est la proposition d’une méthode de recherche d’occurrences de règles temporelles capable de capturer cette variabilité dans des séries temporelles industrielles. Pour cela la méthode intègre l’utilisation de mesures de distance élastiques capables d’évaluer la similarité entre des séries temporelles légèrement déformées. La seconde partie de la thèse est consacrée à l’interprétabilité de méthodes de classiﬁcation de séries temporelles, c’est-à-dire la capacité d’un classiﬁeur à retourner des explications à ses résultats. Ces explications devant être compréhensibles par un humain. La classiﬁcation est la tâche d’associer une série temporelle à une catégorie (ex : une série de consommation électrique associée à l’état de la machine). Pour qu’un utilisateur ﬁnal soit enclin à prendre des décisions basées sur les résultats d’un classiﬁeur, il aimerait avoir des assurances sur comment ces résultats sont produits. Dans le cas contraire, cela revient à avoir une conﬁance aveugle dans le classiﬁeur. La seconde contribution de cette thèse est un classiﬁeur, dit interprétable, car nous pouvons en extraire directement l’explication des résultats. Ce classiﬁeur utilise des informations locales sur les séries temporelles pour les discriminer. Enfin, une troisième contribution de cette thèse est une méthode pour expliquer a posteriori un résultat de n’importe quel classiﬁeur. Cette méthode peut être utilisée pour expliquer les résultats de classiﬁeurs non-interprétables. Cette méthode apprend un classiﬁeur interprétable, dit proxy, sur le voisinage de la séries temporelle dont nous souhaitons expliquer la classiﬁcation. Ce proxy doit imiter les résultats du classiﬁeur à expliquer dans ce voisinage. Une étude utilisateur a été réalisé pour évaluer l’interprétabilité de notre méthode.

Extraction of interpretable knowledge in time series

Extraction de connaissances interprétables dans des séries temporelles

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager