Reconstructing the demographic history of populations from genomic data

Willy Rodríguez

Résumé

The rapid development of DNA sequencing technologies is expanding the horizons of population genetic studies. It is expected that genomic data will increase our ability to reconstruct the history of populations. While this increase in genetic information will likely help biologists and anthropologists to reconstruct the demographic history of populations, it also poses big challenges. In some cases, simplicity of the model may lead to erroneous conclusions about the population under study. Recent works have shown that DNA patterns expected in individuals coming from structured populations correspond with those of unstructured populations with changes in size through time. As a consequence it is often difficult to determine whether demographic events such as expansions or contractions (bottlenecks) inferred from genetic data are real or due to the fact that populations are structured in nature. Moreover, almost no inferential method allowing to reconstruct past demographic size changes takes into account structure effects. In this thesis, some recent results in population genetics are presented: (i) a model choice procedure is proposed to distinguish one simple scenario of population size change from one of structured population, based on the coalescence times of two genes, showing that for these simple cases, it is possible to distinguish both models using genetic information form one single individual; (ii) by using the notion of instantaneous coalescent rate, it is demonstrated that for any scenario of structured population or any other one, regardless how complex it could be, there always exists a panmitic scenario with a precise function of population size changes having exactly the same distribution for the coalescence times of two genes. This not only explains why spurious signals of bottlenecks can be found in structured populations but also predicts the demographic history that actual inference methods are likely to reconstruct when applied to non panmitic populations. Finally, (iii) a method based on a Markov process is developed for inferring past demographic events taking the structure into account. This is method uses the distribution of coalescence times of two genes to detect past demographic changes in structured populations from the DNA of one single individual. Some applications of the model to genomic data are discussed.

Le développement des nouvelles techniques de séquençage élargit l' horizon de la génétique de populations. Une analyse appropriée des données génétiques peut augmenter notre capacité à reconstruire l'histoire des populations. Cette énorme quantité de données disponibles peut aider les chercheurs en biologie et anthropologie à mieux estimer les changements démographiques subis par une population au cours du temps, mais induit aussi de nouveaux défis. Lorsque les modèles sous-jacents sont trop simplistes il existe un risque très fort d'être amené à des conclusions erronées sur la population étudiée. Il a été montré que certaines caractéristiques présentes dans l'ADN des individus d'une population structurée se trouvent aussi dans l'ADN de ceux qui proviennent d'une population sans structure dont la taille a changé au cours du temps. Par conséquent il peut s'avérer très difficile de déterminer si les changements de taille inférés à partir des données génétiques ont vraiment eu lieu ou s'il s'agit simplement des effets liés à la structure. D'ailleurs la quasi totalité des méthodes pour inférer les changements de taille d'une population au cours du temps sont basées sur des modèles qui négligent la structure. Dans cette thèse, de nouveaux résultats de génétique de populations sont présentés. Premièrement, nous présentons une méthodologie permettant de faire de la sélection de modèle à partir de l'ADN d'un seul individu diploïde. Cette première étude se limite à un modèle simple de population non structurée avec un changement de taille et à un modèle considérant une population de taille constante mais structurée. Cette nouvelle méthode utilise la distribution des temps de coalescence de deux gènes pour identifier le modèle le plus probable et ouvre ainsi la voie pour de nouvelles méthodes de sélection de modèles structurés et non structurés, à partir de données génomiques issues d'un seul individu. Deuxièmement, nous montrons, par une ré-interprétation du taux de coalescence que, pour n'importe quel scénario structuré, et plus généralement n'importe quel modèle, il existe toujours un scénario considérant une population panmictique avec une fonction précise de changements de taille dont la distribution des temps de coalescence de deux gènes est identique a celle du scénario structuré. Cela non seulement explique pourquoi les méthodes d'inférence démographique détectent souvent des changements de taille n'ayant peut-être jamais eu lieu, mais permet aussi de prédire les changements de taille qui seront reconstruits lorsque des méthodes basées sur l'hypothèse de panmixie sont appliquées à des données issues de scénarios plus complexes. Finalement, une nouvelle approche basée sur un processus de Markov est développée et permet de caractériser la distribution du temps de coalescence de deux gènes dans une population structurée soumise à des événements démographiques tel que changement de flux de gènes et changements de taille. Une discussion est menée afin de décrire comment cette méthode donne la possibilité de reconstruire l'histoire démographique à partir de données génomiques tout en considérant la structure.

Reconstructing the demographic history of populations from genomic data

Estimation de l’histoire démographique des populations à partir de génomes entièrement séquencés

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager