The Statistical Fate of Genomic DNA : Modelling Match Statistics in Different Evolutionary Scenarios - TEL - Thèses en ligne Accéder directement au contenu
Thèse Année : 2015

The Statistical Fate of Genomic DNA : Modelling Match Statistics in Different Evolutionary Scenarios

Le devenir statistique de l'ADN génomique : Modélisation des statistiques d'appariement dans différents scénarios évolutifs

Résumé

In this thesis, we study the length distribution of maximal exact matches within and between eukaryotic genomes. These distributions strongly deviate from what one could expect from simple probabilistic models and, surprisingly, present a power-law behavior. To analyze these deviations, we develop mathematical frameworks taking into account complex mechanisms and that reproduce the observed deviations. We also implemented in silico sequence evolution models that reproduce these behaviors. Finally, we show that we can use our framework to assess the quality of sequences of recently sequenced genomes and to highlight the importance of unexpected biological mechanisms in eukaryotic genomes.
Le but de cette thèse est d'étudier la distribution des tailles des répétitions au sein d'un même génome, ainsi que la distribution des tailles des appariements obtenus en comparant différents génomes. Ces distributions présentent d'importantes déviations par rapport aux prédictions des modèles probabilistes existants. Étonnamment, les déviations observées sont distribuées selon une loi de puissance. Afin d'étudier ce phénomène, nous avons développé des modèles mathématiques prenant en compte des mécanismes évolutifs plus complexes, et qui expliquent les distributions observées. Nous avons aussi implémenté des modèles d'évolution de séquences in silico générant des séquences ayant les mêmes propriétés que les génomes étudiés. Enfin, nous avons montré que nos modèles permettent de tester la qualité des génomes récemment séquencés, et de mettre en évidence la prévalence de certains mécanismes évolutifs dans les génomes eucaryotes.
Fichier principal
Vignette du fichier
70830_MASSIP_2015_diffusion.pdf (5.11 Mo) Télécharger le fichier
Origine : Version validée par le jury (STAR)
Loading...

Dates et versions

tel-01289410 , version 1 (16-03-2016)

Identifiants

  • HAL Id : tel-01289410 , version 1

Citer

Florian Massip. The Statistical Fate of Genomic DNA : Modelling Match Statistics in Different Evolutionary Scenarios. Statistics [math.ST]. Université Paris Saclay (COmUE), 2015. English. ⟨NNT : 2015SACLS008⟩. ⟨tel-01289410⟩

Collections

INRA STAR INRAE
199 Consultations
277 Téléchargements

Partager

Gmail Facebook X LinkedIn More