Learning models on healthcare data with quality indicators - TEL - Thèses en ligne Accéder directement au contenu
Thèse Année : 2022

Learning models on healthcare data with quality indicators

Modèles d'apprentissage sur les données de santé avec indicateurs de qualité

Donato Tiano
  • Fonction : Auteur
  • PersonId : 1347599
  • IdRef : 275460924

Résumé

Time series are collections of data obtained through measurements over time. The purpose of this data is to provide food for thought for event extraction and to represent them in an understandable pattern for later use. The whole process of discovering and extracting patterns from the dataset is carried out with several extraction techniques, including machine learning, statistics, and clustering. This domain is then divided by the number of sources adopted to monitor a phenomenon. Univariate time series when the data source is single and multivariate time series when the data source is multiple. The time series is not a simple structure. Each observation in the series has a strong relationship with the other observations. This interrelationship is the main characteristic of time series, and any time series extraction operation has to deal with it. The solution adopted to manage the interrelationship is related to the extraction operations. The main problem with these techniques is that they do not adopt any pre-processing operation on the time series. Raw time series have many undesirable effects, such as noisy points or the huge memory space required for long series. We propose new data mining techniques based on the adoption of the most representative features of time series to obtain new models from the data. The adoption of features has a profound impact on the scalability of systems. Indeed, the extraction of a feature from the time series allows for the reduction of an entire series to a single value. Therefore, it allows for improving the management of time series, reducing the complexity of solutions in terms of time and space. FeatTS proposes a clustering method for univariate time series that extracts the most representative features of the series. FeatTS aims to adopt the features by converting them into graph networks to extract interrelationships between signals. A co-occurrence matrix merges all detected communities. The intuition is that if two time series are similar, they often belong to the same community, and the co-occurrence matrix reveals this. In Time2Feat, we create a new multivariate time series clustering. Time2Feat offers two different extractions to improve the quality of the features. The first type of extraction is called Intra-Signal Features Extraction and allows to obtain of features from each signal of the multivariate time series. Inter-Signal Features Extraction is used to obtain features by considering pairs of signals belonging to the same multivariate time series. Both methods provide interpretable features, which makes further analysis possible. The whole time series clustering process is lighter, which reduces the time needed to obtain the final cluster. Both solutions represent the state of the art in their field. In AnomalyFeat, we propose an algorithm to reveal anomalies from univariate time series. The characteristic of this algorithm is the ability to work among online time series, i.e. each value of the series is obtained in streaming. In the continuity of previous solutions, we adopt the functionality of revealing anomalies in the series. With AnomalyFeat, we unify the two most popular algorithms for anomaly detection: clustering and recurrent neural network. We seek to discover the density area of the new point obtained with clustering.
Les séries temporelles sont des collections de données obtenues par des mesures dans le temps. Cette données vise à fournir des éléments de réflexion pour l'extraction d'événements et à les représenter dans une configuration compréhensible pour une utilisation ultérieure. L'ensemble du processus de découverte et d'extraction de modèles à partir de l'ensemble de données s'effectue avec plusieurs techniques d'extraction, notamment l'apprentissage automatique, les statistiques et les clusters. Ce domaine est ensuite divisé par le nombre de sources adoptées pour surveiller un phénomène. Les séries temporelles univariées lorsque la source de données est unique, et les séries temporelles multivariées lorsque la source de données est multiple. La série chronologique n'est pas une structure simple. Chaque observation de la série a une relation forte avec les autres observations. Cette interrelation est la caractéristique principale des séries temporelles, et toute opération d'extraction de séries temporelles doit y faire face. La solution adoptée pour gérer l'interrelation est liée aux opérations d'extraction. Le principal problème de ces techniques est de ne pas adopter d'opération de prétraitement sur les séries temporelles. Les séries temporelles brutes comportent de nombreux effets indésirables, tels que des points bruyants ou l'énorme espace mémoire requis pour les longues séries. Nous proposons de nouvelles techniques d'exploration de données basées sur l'adoption des caractéristiques plus représentatives des séries temporelles pour obtenir de nouveaux modèles à partir des données. L'adoption des caractéristiques a un impact profond sur la scalabilité des systèmes. En effet, l'extraction d'une caractéristique de la série temporelle permet de réduire une série entière en une seule valeur. Par conséquent, cela permet d'améliorer la gestion des séries temporelles, en réduisant la complexité des solutions en termes de temps et d'espace. FeatTS propose une méthode de clustering pour les séries temporelles univariées qui extrait les caractéristiques les plus représentatives de la série. FeatTS vise à adopter les particularités en les convertissant en réseaux de graphes pour extraire les interrelations entre les signaux. Une matrice de cooccurrence fusionne toutes les communautés détectées. L'intuition est que si deux séries temporelles sont similaires, elles appartiennent souvent à la même communauté, et la matrice de cooccurrence permet de le révéler. Dans Time2Feat, nous créons un nouveau clustering de séries temporelles multivariées. Time2Feat propose deux extractions différentes pour améliorer la qualité des caractéristiques. Le premier type d'extraction est appelé extraction de caractéristiques intra-signal et permet d'obtenir des caractéristiques à partir de chaque signal de la série temporelle multivariée. Inter-Signal Features Extraction permet d'obtenir des caractéristiques en considérant des couples de signaux appartenant à la même série temporelle multivariée. Les deux méthodes fournissent des caractéristiques interprétables, ce qui rend possible une analyse ultérieure. L'ensemble du processus de clustering des séries temporelles est plus léger, ce qui réduit le temps nécessaire pour obtenir le cluster final. Les deux solutions représentent l'état de l'art dans leur domaine. Dans AnomalyFeat, nous proposons un algorithme pour révéler des anomalies à partir de séries temporelles univariées. La caractéristique de cet algorithme est la capacité de travailler parmi des séries temporelles en ligne, c'est-à-dire que chaque valeur de la série est obtenue en streaming. Dans la continuité des solutions précédentes, nous adoptons les fonctionnalités de révélation des anomalies dans les séries. Avec AnomalyFeat, nous unifions les deux algorithmes les plus populaires pour la détection des anomalies : le clustering et le réseau neuronal récurrent. Nous cherchons à découvrir la zone de densité du nouveau point obtenu avec le clustering.
Fichier principal
Vignette du fichier
TH2022TIANODONATO.pdf (2.86 Mo) Télécharger le fichier
Origine : Version validée par le jury (STAR)

Dates et versions

tel-04440713 , version 1 (06-02-2024)

Identifiants

  • HAL Id : tel-04440713 , version 1

Citer

Donato Tiano. Learning models on healthcare data with quality indicators. Artificial Intelligence [cs.AI]. Université Claude Bernard - Lyon I, 2022. English. ⟨NNT : 2022LYO10182⟩. ⟨tel-04440713⟩
35 Consultations
13 Téléchargements

Partager

Gmail Facebook X LinkedIn More