11051 articles  [version française]
Detailed view PhD thesis
Université de Grenoble 236 National Taiwan University (NTU) (13/12/2011), Hans Geiselmann (Dir.)
Attached file list to this document: 
PDF
20669_WANG_2011_archivage1.pdf(3.9 MB)
Trouver les gènes manquants dans des réseaux géniques
Woei fuh Wang1

Le développement de techniques à haut débit fournit de nombreuses données sur le fonctionnement de réseaux de régulation. Il devient donc de plus en plus important de développer des techniques qui permettent de déduire la topologie et le fonctionnement des réseaux de régulation à partir des données expérimentales. La plupart des études dans ce domaine se focalisent sur la reconstruction de l'architecture locale du réseau de régulation et la détermination des paramètres qui relient les composants du réseau. Cependant, les réseaux biologiques ne sont jamais entièrement connus. L'absence d'un noeud important dans le réseau de régulation peut facilement conduire à de mauvaises prédictions de la structure du réseau ou des paramètres d'interactions. Dans cette thèse, nous proposons une méthode qui permet d'inférer l'existence, le profile d'expression et la connexion au reste du réseau d'un gène (ou de gènes) manquant. Pour résoudre ce problème difficile, nous devons simplifier la description du réseau de régulation. Nous faisons l'hypothèse communément acceptée que les interactions dans le réseau sont décrites par des fonctions de Hill. Nous approximons ces fonctions trop compliquées par des fonctions de puissance et nous montrons que cette simplification préserve la dynamique du réseau. En prenant le logarithme du système d'équations nous convertissons le système non-linéaire en un système linéaire. De nombreux outils sont disponibles pour analyser des systèmes linéaires. Nous utilisons l'analyse factorielle (FA) et l'analyse de composants indépendants (ICA) pour extraire le profil d'expression du gène inconnu à partir des profils d'expression des parties connues du réseau de régulation. Après avoir estimé le pattern d'expression du gène inconnu, nous explorons les différentes possibilités de connecter ce gène au reste du réseau. Une recherche exhaustive est trop coûteuse pour des grands réseaux de régulation. Nos proposons donc un algorithme de réduction de l'espace de recherche pour diminuer le nombre de calculs nécessaires. L'algorithme proposé est robuste au bruit expérimental et le profil d'expression du gène inconnu est retrouvé avec une probabilité de 80% dans des réseaux de petite taille et avec une probabilité de 60% pour des grands réseaux. FA est plus efficace que ICA pour extraire le profile du gène inconnu. L'algorithme est finalement appliqué à un réseau biologique réel: le réseau de régulation de la transcription du gène acs d'Escherichia coli. Nous prédisons qu'il y a un gène manquant dans ce réseau et les deux méthodes d'extraction du signal trouvent un profil d'expression très similaire pour le gène inconnu. De plus, ce profil d'expression est identique dans trois contextes expérimentaux différents : la souche sauvage, la souche dont l'adénylate cyclase a été délété et cette même souche complémentée par des l'AMPc ajouté au milieu de croissance. Puisque le profil d'expression du gène inconnu reste le mŘme dans les trois souches nous pouvons conclure que ce gène est indépendant de l'AMPc. Les deux méthodes d'extraction du profil d'expression prédisent deux structures différentes du réseau complet. FA prédit que le gène manquant contrôle l'expression de fis, tandis que ICA prédit que le gène inconnu contrôle d'expression de crp.
1:  INRIA Grenoble Rhône-Alpes - IBIS
Laboratoire Adaptation et Pathogénie des Microorganismes
Les réseaux de régulation géniques – Escherichia coli – L'analyse factorielle – L'analyse de composants indépendants

Finding missing genes in genetic regulatory networks.
With the development of hight-throughput technologies, the investigation of the topologies and the functioning of genetic regulatory networks have become an important research topic in recent years. Most of the studies concentrate on reconstructing the local architecture of genetic regulatory networks and the determination of the corresponding interaction parameters. The preferred data sources are time series expression data. However, inevitably one or more important members of the regulatory network will remain unknown. The absence of important members of the genetic circuit leads to incorrectly inferred network topologies and control mechanisms. In this thesis we propose a method to infer the connection and expression pattern of these "missing genes". In order to make the problem tractable, we have to make further simplifying assumptions. We assume that the interactions within the network are described by Hill-functions. We then approximate these functions by power-law functions. We show that this simplification still captures the dynamic regulatory behaviors of the network. The genetic control system can now be converted to linear model by using a logarithm transformation. In another word, we can analyze the genetic regulatory networks by linear approaches. In the logarithmic space, we propose a procedure for extracting the expression profile of a missing gene within the otherwise defined genetic regulatory network. The algorithm also determines the regulatory connections of this missing gene to the rest of the regulation network. The inference algorithm is based on Factor Analysis, a well-developed multivariate statistical analysis approach that is used to investigate unknown, underlying features of an ensemble of data, in our case the promoter activities and intracellular concentrations of the known genes. We also explore a second blind sources separation method, "Independent Component Analysis", which is also commonly used to estimate hidden signals. Once the expression profile of the missing gene has been derived, we investigate possible connections of this gene to the remaining network by methods of search space reduction. The proposed method of inferring the expression profile of a missing gene and connecting it to a known network structure is applied to artificial genetic regulatory networks, as well as a real biologicial network studied in the laboratory: the acs regulatory network of Escherichia coli. In these applications we confirm that power-law functions are a good approximation of Hill-functions. Factor Analysis predicts the expression profiles of missing genes with a high accuracy of 80% in small artificial genetic regulatory networks. The accuracy of Factor Analysis of predicting the expression profiles of missing genes of large artificial genetic regulatory networks is 60%. In contrast, Independent Component Analysis is less powerful than Factor Analysis in extracting the expression profiles of missing components in small, as well as large, artificial genetic regulatory networks. Both Factor Analysis and Independent Component suggest that only one missing gene is sufficient to explain the observed expression profiles of Acs, Fis and Crp. The expression profiles of the missing genes in the △cya strain and in the △cya strain supplemented with cAMP estimated by Factor Analysis and Independent Component Analysis are very similar. Factor Analysis suggests that fis is regulated by the missing genes, while Independent Component Analysis suggests that crp is controlled by the missing gene.
Genetic regulatory network – Escherichia coli – Factor analysis – Independent component analysis