Deep learning for time series classification

Hassan Ismail Fawaz

Résumé

Data science is about designing algorithms and pipelines for extracting knowledge from large masses of data.Time series analysis is a field of data science which is interested in analyzing sequences of numerical values ordered in time.Time series are particularly interesting because they allow us to visualize and understand the evolution of a process over time.Their analysis can reveal trends, relationships and similarities across the data.There exists numerous fields containing data in the form of time series: health care (electrocardiogram, blood sugar, etc.), activity recognition, remote sensing, finance (stock market price), industry (sensors), etc.In data mining, classification is a supervised task that involves learning a model from labeled data organized into classes in order to predict the correct label of a new instance.Time series classification consists of constructing algorithms dedicated to automatically label time series data.For example, using a labeled set of electrocardiograms from healthy patients or patients with a heart disease, the goal is to train a model capable of predicting whether or not a new electrocardiogram contains a pathology.The sequential aspect of time series data requires the development of algorithms that are able to harness this temporal property, thus making the existing off-the-shelf machine learning models for traditional tabular data suboptimal for solving the underlying task.In this context, deep learning has emerged in recent years as one of the most effective methods for tackling the supervised classification task, particularly in the field of computer vision.The main objective of this thesis was to study and develop deep neural networks specifically constructed for the classification of time series data.We thus carried out the first large scale experimental study allowing us to compare the existing deep methods and to position them compared other non-deep learning based state-of-the-art methods.Subsequently, we made numerous contributions in this area, notably in the context of transfer learning, data augmentation, ensembling and adversarial attacks.Finally, we have also proposed a novel architecture, based on the famous Inception network (Google), which ranks among the most efficient to date.Our experiments carried out on benchmarks comprising more than a hundred data sets enabled us to validate the performance of our contributions.Finally, we also showed the relevance of deep learning approaches in the field of surgical data science where we proposed an interpretable approach in order to assess surgical skills from kinematic multivariate time series data.

La science des données s’intéresse aux théories et aux algorithmes permettant d’extraire des connaissances de grandes masses de données.L’analyse de séries temporelles est le sous-domaine de la science des données qui s’intéresse à l’analyse de données composées de suites de valeurs numériques ordonnées dans le temps.Les séries temporelles sont particulièrement intéressantes car elles permettent de comprendre l’évolution des états d’un processus au cours du temps.Leur analyse peut ainsi révéler des tendances, des relations et des similarités à travers les données. De très nombreux domaines produisent des données sous la forme de séries temporelles : données de santés (électrocardiogramme, glycémie, etc.), reconnaissance d'activités, télédétection, finance (cours de bourse), industrie (capteurs). Au sein de la science des données, la classification est une tâche supervisée qui consiste à apprendre un modèle à partir de données étiquetées organisées en classes afin de prédire la classe de nouvelles données.La classification de séries temporelles s'intéresse aux algorithmes de classification dédiés au traitement de séries temporelles. Par exemple, à l’aide d’un ensemble étiqueté d’électrocardiogrammes de patients sains ou présentant un problème cardiaque, l’objectif est d'entraîner un modèle capable de prédire si un nouvel électrocardiogramme présente ou non une pathologie.Les spécificités des données temporelles imposent le développement d’algorithmes dédiés au traitement de ces données, les modèles existants pour d’autres type de données (images, vidéos, etc.) n’étant pas toujours adaptés.Dans ce contexte, l’apprentissage profond (deep learning) s’est imposé au cours des dernières années comme une des méthodes les plus performantes pour réaliser la tâche de classification, notamment dans le domaine de la vision par ordinateur.L’objectif principal de cette thèse a été d’étudier et de développer des modèles profonds spécifiquement construits pour la classification de séries temporelles.Nous avons ainsi réalisé la première étude expérimentale permettant de comparer les méthodes profondes existantes et de les positionner par rapport aux méthodes de l’état de l’art n’utilisant pas l’apprentissage profond.Par la suite, nous avons effectué de nombreuses contributions dans ce domaine, notamment dans le cadre de l’apprentissage par transfert, l'augmentation de données, la création d’ensembles et l'attaque adversaire.Enfin, nous avons également proposé une nouvelle architecture profonde, basée sur le célèbre réseau Inception (Google), qui se positionne parmis les plus performantes à ce jour.Nos expériences menées sur des benchmarks comportant plus d’un centaine de jeux de données nous ont permis de valider les performances de nos contributions.Enfin, nous avons également montré la pertinence des approches profondes dans le domaine de la science des données chirurgicales (surgical data science) où nous avons proposé une approche interprétable afin d’évaluer les compétences chirurgicales à partir de données cinématiques de séries temporelles multivariées.

Deep learning for time series classification

Apprentissage profond pour la classification des séries temporelles

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager