Stochastic process analysis for Genomics and Dynamic Bayesian Networks inference.

Sophie Lebre

Résumé

This thesis is dedicated to the development of statistical and computational methods for the analysis of DNA sequences and gene expression time series.

First we study a parsimonious Markov model called Mixture Transition Distribution (MTD) model which is a mixture of Markovian transitions. The overly high number of constraints on the parameters of this model hampers the formulation of an analytical expression of the Maximum Likelihood Estimate (MLE). We propose to approach the MLE thanks to an EM algorithm. After comparing the performance of this algorithm to results from the litterature, we use it to evaluate the relevance of MTD modeling for bacteria DNA coding sequences in comparison with standard Markovian modeling.

Then we propose two different approaches for genetic regulation network recovering. We model those genetic networks with Dynamic Bayesian Networks (DBNs) whose edges describe the dependency relationships between time-delayed genes expression. The aim is to estimate the topology of this graph despite the overly low number of repeated measurements compared with the number of observed genes.

To face this problem of dimension, we first assume that the dependency relationships are homogeneous, that is the graph topology is constant across time. Then we propose to approximate this graph by considering partial order dependencies. The concept of partial order dependence graphs, already introduced for static and non directed graphs, is adapted and characterized for DBNs using the theory of graphical models. From these results, we develop a deterministic procedure for DBNs inference.

Finally, we relax the homogeneity assumption by considering the succession of several homogeneous phases. We consider a multiple changepoint
regression model. Each changepoint indicates a change in the regression model parameters, which corresponds to the way an expression level depends on the others. Using reversible jump MCMC methods, we develop a stochastic algorithm which allows to simultaneously infer the changepoints location and the structure of the network within the phases delimited by the changepoints.

Validation of those two approaches is carried out on both simulated and real data analysis.

Cette thèse est consacrée au développement de méthodes statistiques et algorithmiques pour l'analyse de séquences d'ADN et de données temporelles d'expression de gènes.

Dans un premier temps, nous étudions un modèle de Markov parcimonieux, le modèle MTD ou Mixture Transition Distribution. Il s'agit d'un modèle
de mélange de transitions markoviennes. Le nombre élevé de contraintes sur les paramètres de ce modèle ne permet pas d'obtenir une expression analytique de l'estimateur du maximum de vraisemblance. Nous proposons ici de l'approcher grâce à un algorithme EM. Après comparaison des performances de cet algorithme aux résultats de la littérature, nous l'utilisons pour évaluer la pertinence de la modélisation MTD pour l'analyse de séquences codantes de bactéries par rapport à une modélisation markovienne classique.

Nous proposons ensuite deux approches différentes pour la reconstruction de réseaux génétiques de régulation. Nous modélisons ces réseaux génétiques par des réseaux bayésiens dynamiques (DBN pour Dynamic Bayesian Network) définis par un graphe orienté dont les arÍtes décrivent les relations de dépendance entre les niveaux d'expression mesurés à des temps successifs. L'enjeu consiste à estimer la topologie de ce graphe malgré le très faible nombre de mesures par rapport au nombre de gènes observés.

Pour faire face à ce problème de dimension, nous supposons tout d'abord que les relations de dépendance sont homogènes, c'est-à-dire que la topologie du graphe est fixe au cours du temps; nous proposons alors d'approcher ce graphe en considérant des dépendances d'ordre partiel. La notion de graphes de dépendance d'ordre partiel, existante pour les graphes statiques et non-orientés, est étendue et caractérisée pour les DBN gr‚ce à la théorie des modèles graphiques. Ces résultats nous permettent de développer une procédure déterministe d'inférence de DBN.

Nous relâchons ensuite l'hypothèse d'homogénéité en supposant la succession de phases homogènes. Nous considérons ainsi un modèle de régression à ruptures multiples. Chaque rupture marque un changement des paramètres du modèle de régression, c'est-à-dire de la faÁon dont un niveau d'expression dépend des autres. En utilisant des méthodes MCMC à sauts réversibles, nous développons une procédure qui permet d'estimer simultanément la position des points de rupture et la structure du réseau au sein de chaque phase.

Ces deux approches sont validées par l'analyse de données simulées et réelles.

Stochastic process analysis for Genomics and Dynamic Bayesian Networks inference.

Analyse de processus stochastiques pour la génomique : étude du modèle MTD et inférence de réseaux bayésiens dynamiques.

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Partager