Reverse Engineering Gene Networks Using Genomic Time-Course Data

Andrea Rau

Résumé

Gene regulatory networks are collections of genes that interact, whether directly or indirectly, with each other and with other substances in the cell. Such gene-to-gene interactions play an important role in a variety of biological processes, as they regulate the rate and degree to which genes are transcribed and proteins are created. By measuring gene expression over time, it may be possible to reverse engineer, or infer, the structure of the gene network involved in a particular cellular process. With the development of microarray and next-generation sequencing technologies, it has become possible to conduct longitudinal experiments to measure the expression of thousands of genes simultaneously over time. However, due to the high dimensionality of gene expression data, the limited number of biological replicates and time points typically measured, and the complexity of biological systems themselves, the problem of reverse engineering networks from transcriptomic data demands a specialized suite of appropriate statistical tools and methodologies.

Two methods are proposed that use directed graphical models of stochastic processes, known as dynamic Bayesian networks, and first-order linear models to represent gene regulatory networks. In the first method, an algorithm is developed based on a hierarchical Bayesian framework for a Gaussian state space model. Hyperparameters are estimated using an empirical Bayes procedure, and parameter posterior distributions determine the presence or absence of gene-to-gene interactions. In the second method, a simulation-based approach known as Approximate Bayesian Computing based on Markov Chain Monte Carlo sampling is modified to the context of gene regulatory networks. Because no likelihood calculation is required, this method permits inference even for networks where no distributional assumptions are made. The performance of the proposed approaches is investigated via simulations, and both methods are applied to real longitudinal expression data. The two methods, while not comparable, are complementary, and help illustrate the need for a variety of network inference methods adapted for different contexts.

Les réseaux de gènes régulateurs représentent un ensemble de gènes qui interagissent, directement ou indirectement, les uns avec les autres ainsi qu'avec d'autres produits cellulaires. Comme ces interactions réglementent le taux de transcription des gènes et la production subséquente de protéines fonctionnelles, l'identification de ces réseaux peut conduire à une meilleure compréhension des systèmes biologiques complexes. Les technologies telles que les puces à ADN (microarrays) et le séquençage à ultra-haut débit (RNA sequencing) permettent une étude simultanée de l'expression des milliers de gènes chez un organisme, soit le transcriptome. En mesurant l'expression des gènes au cours du temps, il est possible d'inférer (soit "reverse-engineer") la structure des réseaux biologiques qui s'impliquent pendant un processus cellulaire particulier. Cependant, ces réseaux sont en général très compliqués et difficilement élucidés, surtout vu le grand nombre de gènes considérés et le peu de répliques biologiques disponibles dans la plupart des données expérimentales.

Dans ce travail, nous proposons deux méthodes pour l'identification des réseaux de gènes régulateurs qui se servent des réseaux Bayésiens dynamiques et des modèles linéaires. Dans la première méthode, nous développons un algorithme dans un cadre bayésien pour les modèles linéaires espace-état (state-space model). Les hyperparamètres sont estimés avec une procédure bayésienne empirique et une adaptation de l'algorithme espérance-maximisation. Dans la deuxième approche, nous développons une extension d'une méthode de Approximate Bayesian Computation basé sur une procédure de Monte Carlo par chaînes de Markov pour l'inférence des réseaux biologiques. Cette méthode échantillonne des lois approximatives a posteriori des interactions gène-à-gène et fournit des informations sur l'identifiabilité et le robustesse des structures sous-réseaux. La performance des deux approches est étudié via un ensemble de simulations, et les deux sont appliqués aux données transcriptomiques.

Reverse Engineering Gene Networks Using Genomic Time-Course Data

Inférence rétrospective de réseaux de gènes à partir de données génomiques temporelles

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Partager