Détection de courts segments inversés dans les génomes - méthodes et applications - TEL - Thèses en ligne Accéder directement au contenu
Thèse Année : 2005

Detection of short inverted segments in genomes - methods and applications

Détection de courts segments inversés dans les génomes - méthodes et applications

David Robelin

Résumé

Inversion of short segments (less than 1000 bases) is suspected to be a major mechanism of genome's evolution. Two methods to detect ab initio these segments are presented. The sequence is modelized by a Markov chain $X^+$. Therefore the inverted complementary sequence is modelized by a Markov chain denoted $X^-$. The first chapter didactically presents the Markov models used in genomic sequence analysis. A generalization to order greater than 1 of a result on the speed of convergence of a Markov chain to its stationnary distribution is also established. The second chapter deals with the theory of local score $H_(n)=\max_(1\leq i \leq j \leq n)(Y_i+...+Y_j)$, for a sequence $(Y_1,...,Y_n) \in \R^n$. The asymptotic joint distribution of the $r$ greatest values of the local score is established using the extreme value theory. Finally a multiple test approach is derived to determine $r$. The third chapter propose a statistic of detection based on a likelihood ratio (model $X^+$ vs $X^-$) when the length of the inverted segment is known. A ``scan-approach'' is then applied. A known approximation of the distribution of the maximum of this type of statistic is then used for obtaining a p-value. In the forth chapter, the method of the local score is applied to deal with segments of unknown length and calculate the corresponding p-value. The fifth chapter presents the application of these methods to viral genomes. A software which implemented both methods is also presented.
L'inversion de courts segments (moins de 1000 bases) est soupçonnée être un mécanisme majeur de l'évolution des génomes. Deux méthodes de détection ab initio de tels segments sont présentées. La séquence est modélisée par une chaîne de Markov $X^+$. La séquence inverse-complémentaire est alors également modélisée par une chaîne de Markov note $X^-$. Le premier chapitre présente de façon didactique les modèles de Markov utilisés en analyse de séquences génomiques. Une généralisation au cas d'un ordre supérieur à 1 d'un résultat sur la vitesse de convergence vers la distribution stationnaire est également établie. Le deuxième chapitre est consacré à l'étude du score local : $H_(n)=\max_(1\leq i \leq j \leq n)(Y_i+...+Y_j)$, pour une séquence $(Y_1,...,Y_n) \in \R^n$. La loi jointe asymptotique des $r$ plus grandes valeurs de score local est établie à l'aide de la théorie des valeurs extrêmes. Enfin, une démarche de test multiple permettant de choisir $r$ est proposée. Le troisième chapitre propose une statistique de détection fondée sur un rapport de vraisemblance (modèle $X^+$ contre modèle $X^-$) lorsque la longueur du segment retourné est connue. Une approche de type ``fenêtre glissante'' est ensuite appliquée. Une approximation connue de la loi du maximum de ce type de statistique est utilisée pour associer un degré de signification aux segments détectés. Dans le quatrième chapitre, le cas de recherche de segments de longueurs inconnues est traité à l'aide d'une méthode de type score local. Le cinquième chapitre présente l'application de ces méthodes à quelques génomes viraux. Un logiciel développé pour traiter cette problématique est également présenté.
Fichier principal
Vignette du fichier
tel-000106281.pdf (3.28 Mo) Télécharger le fichier
tel-00010628.pdf (1.3 Mo) Télécharger le fichier
Format : Autre
Loading...

Dates et versions

tel-00010628 , version 1 (14-10-2005)

Identifiants

  • HAL Id : tel-00010628 , version 1

Citer

David Robelin. Détection de courts segments inversés dans les génomes - méthodes et applications. Sciences du Vivant [q-bio]. Université Paris Sud - Paris XI, 2005. Français. ⟨NNT : ⟩. ⟨tel-00010628⟩
173 Consultations
446 Téléchargements

Partager

Gmail Facebook X LinkedIn More