Algorithms based on k-mers for ancient oral metagenomics - TEL - Thèses en ligne Accéder directement au contenu
Thèse Année : 2024

Algorithms based on k-mers for ancient oral metagenomics

Algorithmes basés sur les k-mers pour la métagénomique orale ancienne

Résumé

Palaeometagenomics is the study of ancient genetic material by using metagenomic sequencing, a process that entails the characterisation of the DNA from all the organisms in a sample. By ancient genetic material we refer to the DNA that comes from a non-living source and that shows signs of molecular degradation. Dental calculus has proven to be an exceptionally rich source of ancient DNA (aDNA) and it has been used to investigate the evolution of the oral microbiome, as well as human oral health and diet. Despite the establishment of rigorous laboratory protocols for aDNA contamination control, aDNA samples are still highly susceptible to contamination from environmental sources, which can drastically alter the microbial composition and lead to erroneous conclusions after downstream analyses. This dissertation proposes two algorithms that rely on kmers (sub-sequences of DNA) to address two relevant challenges in the field of palaeometagenomics: contamination assessment via Microbial Source Tracking and contamination removal at the read level. The former task resulted in a first-author publication and an open-software called decOM, while the latter has also been published as a first-author paper accompanied by an open-software called aKmerBroom. Both methods were tested on ancient oral metagenomic data, yet their utility can be extended to samples that do not originate from ancient oral sources. Overall, this thesis has proven that k-mer-based algorithms have an immense potential for contamination removal and contamination assessment of metagenomes, as they leverage the wealth of metagenomic information that has been sequenced and made publicly available throughout the years.
La paléométagénomique est l’étude du matériel génétique ancien à l’aide du séquençage métagénomique, un processus qui implique la caractérisation de l’ADN de tous les organismes d’un échantillon. Par matériel génétique ancien, nous entendons l’ADN provenant d’une source non vivante et présentant des signes de dégradation moléculaire. Le tartre dentaire s’est révélé être une source exceptionnellement riche d’ADN ancien et a été utilisé pour étudier l’évolution du microbiome buccal, ainsi que la santé bucco-dentaire et l’alimentation de l’homme. Malgré la mise en place de protocoles de laboratoire rigoureux pour le contrôle de la contamination de l’ADN ancien, les échantillons d’ADN ancien court sont encore très sensibles à la contamination par des sources environnementales, ce qui peut modifier radicalement la composition microbienne et conduire à des conclusions erronées après les analyses en aval. Cette thèse propose deux algorithmes qui s’appuient sur les k-mers (sous-séquences d’ADN) pour relever deux défis importants dans le domaine de la paléométagénomique : l’évaluation de la contamination via le suivi des sources microbiennes et l’élimination de la contamination au niveau des lectures. La première tâche a donné lieu à une publication en première auteure et à un logiciel ouvert appelé decOM, tandis que la seconde a également été publiée en tant qu’article du première auteure accompagné d’un logiciel ouvert appelé aKmerBroom. Les deux méthodes ont été testées sur des données métagénomiques orales anciennes, mais leur utilité peut être étendue à des échantillons qui ne proviennent pas de sources orales anciennes. Dans l’ensemble, cette thèse a prouvé que les algorithmes basés sur k-mer ont un immense potentiel pour l’élimination de la contamination et l’évaluation de la contamination des métagénomes, car ils tirent parti de la richesse des informations métagénomiques qui ont été séquencées et mises à la disposition du public au fil des ans.
Fichier principal
Vignette du fichier
Thesis_final_version.pdf (14.95 Mo) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)

Dates et versions

tel-04560480 , version 1 (13-03-2024)
tel-04560480 , version 2 (26-04-2024)

Identifiants

Citer

Camila Duitama González. Algorithms based on k-mers for ancient oral metagenomics: Tools for contamination removal and assessment in palaeometagenomics. Bioinformatics [q-bio.QM]. Sorbonne Universite, 2024. English. ⟨NNT : ⟩. ⟨tel-04560480v1⟩
24 Consultations
26 Téléchargements

Altmetric

Partager

Gmail Facebook X LinkedIn More