End-to-End Deep Learning and Subgroup discovery approaches to learn from metagenomics data - TEL - Thèses en ligne Accéder directement au contenu
Thèse Année : 2021

End-to-End Deep Learning and Subgroup discovery approaches to learn from metagenomics data

Approches basées sur les réseau de neurones et la découverte de sous-groupes pour l'apprentissage machine à partir à partir de données métagénomiques

Résumé

Technological advances have made high-resolution sequencing of genetic material possible at ever lower cost. In this context, the human microbiome (considered as our second "genome") has demonstrated its great capacity to stratify various human diseases. As a "super-integrator" of patient status, the gut microbiota is set to play a key role in precision medicine. Omics biomarkers identification has become a major goal of metagenomics processing, as it allows us to understand the microbial diversities that induce the patient stratification. There remain many challenges associated with mainstream metagenomics pipelines that are both time consuming and not stand-alone. This prevents metagenomics from being used as "point-of-care" solutions, especially in resource-limited or remote locations. Indeed, state-of-the-art approaches to learning from metagenomics data still relies on tedious and computationally heavy projections of the sequence data against large genomic reference catalogs. In this thesis, we address this issue by training deep neural networks directly from raw sequencing data building an embedding of metagenomes called Metagenome2Vec. We also explore subgroup discovery algorithms that we adapt to build a classifier with a reject option which then delegates samples, not belonging to any subgroup, to a supervised algorithm. Several datasets are used in the experiments to discriminate patients based on different diseases (colorectal cancer, cirrhosis, diabetes, obesity) from the NCBI public repository. Our evaluations show that our two methods reach high performance comparable to the state-of-the-art, while being respectively stand-alone and interpretable.
Les progrès technologiques ont rendu possible le séquençage haute résolution du matériel génétique à faible coût. Dans ce contexte, le microbiome humain a démontré sa grande capacité à stratifier diverses maladies humaines. En tant que "super-intégrateur" de l'état du patient, le microbiote intestinal est appelé à jouer un rôle clé dans la médecine de précision. L'identification de biomarqueurs omiques est devenue un objectif majeur en métagénomique, et permet de comprendre les diversités microbiennes qui induisent la stratification des patients. Il reste de nombreux défis associés aux pipelines de métagénomique courants, qui prennent du temps et ne sont pas autonomes. Cela empêche l'utilisation de la métagénomique comme solution "point-of-care", comme dans les régions à ressources limitées. En effet, l'état de l'art de l'apprentissage à partir de données métagénomiques repose sur des projections lourdes en calcul des séquences sur de grands catalogues de référence génomique. Dans cette thèse, nous abordons ce problème en entraînant des réseaux neuronaux directement à partir des séquences brutes, en construisant un "embeddings" des métagénomes appelé Metagenome2Vec. Nous explorons également des algorithmes de découverte de sous-groupes que nous adaptons en classifieur avec une option de rejet qui délègue ensuite les échantillons n'appartenant à aucun sous-groupe à un algorithme supervisé. Plusieurs jeux de données sont utilisés dans les expériences sur diverses maladies (cancer colorectal, cirrhose, diabète, obésité) à partir du répertoire NCBI. Nos évaluations montrent que nos méthodes atteignent des performances élevées comparables à l'état de l'art.
Fichier principal
Vignette du fichier
QUEYREL_Maxence_2021.pdf (5.66 Mo) Télécharger le fichier
Origine : Version validée par le jury (STAR)

Dates et versions

tel-03452120 , version 1 (26-11-2021)
tel-03452120 , version 2 (15-07-2022)

Identifiants

  • HAL Id : tel-03452120 , version 2

Citer

Maxence Queyrel. End-to-End Deep Learning and Subgroup discovery approaches to learn from metagenomics data. Quantitative Methods [q-bio.QM]. Sorbonne Université, 2021. English. ⟨NNT : 2021SORUS470⟩. ⟨tel-03452120v2⟩
342 Consultations
307 Téléchargements

Partager

Gmail Facebook X LinkedIn More