Combinaison de modèles phylogénétiques et longitudinaux pour l'analyse des séquences biologiques : reconstruction de HMM profils ancestraux - TEL - Thèses en ligne Accéder directement au contenu
Thèse Année : 2011

Combinaison de modèles phylogénétiques et longitudinaux pour l'analyse des séquences biologiques : reconstruction de HMM profils ancestraux

Résumé

Statistical modelling of homologous sequences through profile HMM disregards the phylogenetic links between those. Here we present models harnessing an efficient combination of horizontal and vertical features, simultaneously figuring sequences as chains of aminoacids and products of an evolutionary process. Such models belong to the phylo-HMM family introduced in the '90s (e.g. Mitchison & Durbin). Focusing on the detection of remote homologues in databases, we develop a framework for an exhaustive derivation of phylo-HMM parameters basing on the phylogeny. The models we build are ancestral re-construction HMM, output by a process of phylogenetic inference of conserved positions, Match and Insert emission probabilities, and transition probabilities. Finally, we propose new models of evolution for transitions between states of the HMM and for insert lengths. The training framework we describe has been implemented and tried on testbenches of homologous sequences. It brings improved likelihoods and a better discriminative power on detecting remote homologues in large databases of proteins sequences
La modélisation statistique de séquences homologues par HMM profils laisse de côté l'information phylogénétique reliant les séquences. Nous proposons ici des modèles combinant efficacement analyse longitudinale (séquences protéiques vues comme des enchaînements d'acides aminés) et verticale (séquences vues comme étant le produit d'une évolution le long des branches d'un arbre phylogénétique). De tels modèles appartiennent à la famille des phylo-HMM, introduite dans le courant des années 1990 (Mitchison& Durbin). Notre objectif étant la détection d'homologues distants dans les bases de données, nous décrivons une méthodologie de dérivation complète des paramètres des phylo-HMM profils basée sur la phylogénie: les modèles que nous proposons sont des HMM de reconstruction ancestrale,issus d'un processus d'inférence phylogénétique des positions conservées, des probabilités d'émission de caractères sur les états Match et Insertion, ainsi que des probabilités de transition entre états du HMM. Nous suggérons notamment une nouvelle modélisation pour l'évolution des transitions entre états du HMM, ainsi qu'un modèle de type Ornstein-Uhlenbeck pour l'évolution des longueurs des insertions. Contraintes évolutives et contraintes longitudinales sont ainsi simultanément prises en compte. Le processus d'apprentissage développé a été implémenté et testé sur une base de données de familles de séquences homologues,mettant en évidence des gains à la fois en termes de vraisemblance accrue des homologues distants et en termes de performance lorsqu'il s'agit de détecter ceux-ci dans les grandes bases de données protéiques
Fichier principal
Vignette du fichier
these_jb_domelevo_entfellner.pdf (5.55 Mo) Télécharger le fichier
Loading...

Dates et versions

tel-00842847 , version 1 (09-07-2013)

Identifiants

  • HAL Id : tel-00842847 , version 1

Citer

Jean-Baka Domelevo Entfellner. Combinaison de modèles phylogénétiques et longitudinaux pour l'analyse des séquences biologiques : reconstruction de HMM profils ancestraux. Bio-informatique [q-bio.QM]. Université Montpellier II - Sciences et Techniques du Languedoc, 2011. Français. ⟨NNT : ⟩. ⟨tel-00842847⟩
201 Consultations
732 Téléchargements

Partager

Gmail Facebook X LinkedIn More