Scalable machine learning approaches for chromatographic pattern extraction in large-scale mass spectrometry data - TEL - Thèses en ligne Accéder directement au contenu
Thèse Année : 2021

Scalable machine learning approaches for chromatographic pattern extraction in large-scale mass spectrometry data

Méthodes d'apprentissage automatique pour l'extraction de motifs chromatographiques dans des gros volumes de données de spectrométrie de masse

Olga Permiakova
  • Fonction : Auteur

Résumé

Proteomic analysis consists in determining which proteins are contained in biological samples and in which quantity. Such analysis is often required in fundamental or clinical research, to find proteins differentially expressed between several conditions, a.k.a. biomarkers. Modern proteomics largely relies on analytical chemistry techniques, and notably, on mass spectrometry (MS) coupled with high-pressure liquid chromatography (LC). To increase the depth and coverage of proteomics analyses, multiplexed LC-MS acquisitions are increasingly relied on, despite the subsequent challenges in data processing. Recently, it has been shown that some of these challenges could be addressed using chromatogram libraries, which consist of elementary chromatographic profile collections corresponding to different protein fragments present in the samples. The current state-of-the-art approaches propose to construct the chromatogram library by means of additional (and costly) mass spectrometry experiments. The aim of this work is to construct it numerically, through the direct analysis of the LC-MS data using innovative machine learning approaches. Two approaches have been developed. The first one, referred to as CHICKN (Chromatogram Hierarchical Compressive K-means with Nystrom approximation), proposes to cluster the observed elution profiles (defined as the columns of the matrix containing the LC-MS data) and to construct the library using the consensus chromatograms resulting from these clusters. This clustering method operates on a data sketch, as defined in the compressive learning theory. Furthermore, the algorithm is compatible with the kernel trick, which is accelerated thanks to Nyström kernel approximation. Finally, we have derived two new kernel functions, based on the Wasserstein-1 distance. We have established on real proteomics data that these kernel functions lead to better capturing the LC-MS data specificities. The second approach developed in this thesis is an online dictionary learning algorithm, referred to as SSDL (Sketched Stochastic Dictionary Learning), so as to use the trained dictionary as a chromatogram library. This method also relies on the compressive learning theory. In addition, its computational efficiency is strengthened by a stochastic version of Nesterov accelerated gradient descent method. The performance of both methods has been assessed on real LC-MS data. We demonstrated that both of them lead to the construction of meaningful chromatogram libraries, satisfying all LC-MS data requirements (notably physical interpretability). Moreover, they have small computational cost and are efficient to build extremely large chromatogram libraries, as required for complex biological samples.
L'analyse protéomique consiste à déterminer les identités et quantités des protéines contenues dans des échantillons biologiques. Une telle analyse est souvent nécessaire en recherche fondamentale ou clinique, pour trouver des protéines différentiellement exprimées entre plusieurs conditions, communément appelées « biomarqueurs ». La protéomique moderne s’appuie principalement sur des techniques de chimie analytique, et notamment, sur la spectrométrie de masse (MS) couplée à la chromatographie liquide haute pression (LC). Pour augmenter la profondeur et la couverture des analyses protéomiques, le multiplexage des acquisitions est de plus en plus utilisé, malgré les défis que cela soulève ensuite lors du traitement des données. Récemment, il a été montré que certains d’entre eux pouvaient être résolus à l'aide d’une « bibliothèque de chromatogrammes », c’est-à-dire une collection de profils chromatographiques élémentaires correspondant à différents fragments de protéines présents dans les échantillons. Les approches de l’état de l’art s’appuient sur des expériences complémentaires (et coûteuses) de spectrométrie de masse pour construire cette bibliothèque de chromatogrammes. L'objectif de ce travail a donc été de s’affranchir de ces expériences et d’appliquer des méthodes d’apprentissage automatique innovantes pour construire in silico cette bibliothèque. Deux méthodes ont été développées. La première, appelée CHICKN (Chromatogram Hierarchical Compressive K-means with Nyström approximation), propose de partitionner les profils d'élution observés (définis comme les colonnes de la matrice contenant les données LC-MS) en plusieurs groupes en fonction de leur forme, puis de construire la bibliothèque en utilisant un représentant de chaque groupe. Afin d’être calculatoirement efficace, l’étape de partitionnement s’appuie sur la théorie de l'apprentissage compressif, qui permet de traiter un sketch des données (un résumé de taille fixe) plutôt que les données complètes. Par ailleurs, l'algorithme ainsi obtenu est compatible avec l'astuce du noyau, qui est accélérée grâce à l'approximation de Nyström. Enfin, nous avons proposé deux nouveaux noyaux à partir de la distance Wasserstein-1. Nous avons établi sur des données protéomiques réelles que ces deux noyaux permettent de mieux appréhender les spécificités des données LC-MS. La deuxième méthode développée dans cette thèse est constituée d’un algorithme d'apprentissage de dictionnaire, baptisé SSDL (Sketched Stochastic Dictionary Learning); afin d'utiliser ensuite le dictionnaire ainsi appris comme bibliothèque de chromatogrammes. Cette méthode repose également sur la théorie de l'apprentissage compressif. De plus, son efficacité computationnelle est renforcée par une version stochastique de la méthode de descente de gradient accélérée de Nesterov. Les performances des deux méthodes ont été évaluées sur des données LC-MS réelles. Nous avons démontré que les deux méthodes conduisent effectivement à la construction de bibliothèques de chromatogrammes qui satisfont toutes les exigences de données LC-MS (dont, notamment, l’interprétabilité physique). En outre, elles ont un faible coût de calcul, ce qui leur permet de construire efficacement les très grandes bibliothèques de chromatogrammes qui sont nécessaires à l’analyse d’échantillons biologiques complexes.
Fichier principal
Vignette du fichier
PERMIAKOVA_2021_archivage.pdf (34.41 Mo) Télécharger le fichier
Origine : Version validée par le jury (STAR)

Dates et versions

tel-03337202 , version 1 (07-09-2021)

Identifiants

  • HAL Id : tel-03337202 , version 1

Citer

Olga Permiakova. Scalable machine learning approaches for chromatographic pattern extraction in large-scale mass spectrometry data. Quantitative Methods [q-bio.QM]. Université Grenoble Alpes [2020-..], 2021. English. ⟨NNT : 2021GRALS008⟩. ⟨tel-03337202⟩
157 Consultations
37 Téléchargements

Partager

Gmail Facebook X LinkedIn More