Applications of probability calculus to the detection of conserved genomic regions
Applications du calcul des probabilités à la recherche de régions génomiques conservées
Abstract
This thesis is concentrated on some probability and statistical issues linked to genomic comparison. In the first part we present a compound Poisson approximation for computing probabilities involved in significance tests for conserved genomic regions found by the reference-region approach. An important aspect of our computations is the fact that we are taking into account the existence of multigene families. In the second part we propose three measures, based on the transposition distance in the symmetric group, for quantifying the exceptionality of the gene order in conserved genomic regions. We obtain analytic expressions for their distribution in the case of a random permutation. In the third part of the thesis we study the distribution of the number of cycles in the breakpoint graph of a random signed permutation. We use the Markov chain imbedding technique to obtain this distribution in terms of a product of transition matrices of a certain finite Markov chain. The knowledge of this distribution provides a very good approximation for the distribution of the reversal distance.
Cette thèse se concentre sur quelques sujets de probabilités et statistique liés à la génomique comparative. Dans la première partie nous présentons une approximation de Poisson composée pour calculer des probabilités impliquées dans des tests statistiques pour la significativité des régions génomiques conservées trouvées par une approche de type région de référence.
Un aspect important de notre démarche est le fait de prendre en compte l'existence des familles multigéniques. Dans la deuxième partie nous proposons trois mesures, basées sur la distance de transposition dans le groupe symétrique, pour quantifier l'exceptionalité de l'ordre des gènes dans des régions génomiques conservées. Nous avons obtenu des expressions analytiques pour leur distribution dans le cas d'une permutation aléatoire. Dans la troisième partie nous avons étudié la distribution du nombre de cycles dans le graphe des points de rupture d'une permutation signée aléatoire. Nous avons utilisé la technique ``Markov chain imbedding'' pour obtenir cette distribution en terme d'un produit de matrices de transition d'une certaine chaîne de Markov finie. La connaissance de cette
distribution fournit par la suite une très bonne approximation pour la distribution de la distance d'inversion.
Un aspect important de notre démarche est le fait de prendre en compte l'existence des familles multigéniques. Dans la deuxième partie nous proposons trois mesures, basées sur la distance de transposition dans le groupe symétrique, pour quantifier l'exceptionalité de l'ordre des gènes dans des régions génomiques conservées. Nous avons obtenu des expressions analytiques pour leur distribution dans le cas d'une permutation aléatoire. Dans la troisième partie nous avons étudié la distribution du nombre de cycles dans le graphe des points de rupture d'une permutation signée aléatoire. Nous avons utilisé la technique ``Markov chain imbedding'' pour obtenir cette distribution en terme d'un produit de matrices de transition d'une certaine chaîne de Markov finie. La connaissance de cette
distribution fournit par la suite une très bonne approximation pour la distribution de la distance d'inversion.
Keywords
Compound Poisson approximation
Stein-Chen method
conserved genomic region
significance test
reference-region approach
multigene families
gene order comparison
transposition distance
random permutation
number of cycles in the breakpoint graph
random signed permutation
Markov chain imbedding
Approximation de Poisson composée
méthode de Stein-Chen
région génomique conservée
test de significance
région de référence
familles multigéniques
comparaison de l'ordre des gènes
distance de transposition
permutation aléatoire
nombre de cycles dans le graphe des points de rupture
permutation signée aléatoire
Markov chain imbedding.
Loading...