Towards a genome-scale coevolutionary analysis - TEL - Thèses en ligne Accéder directement au contenu
Thèse Année : 2019

Towards a genome-scale coevolutionary analysis

Vers une analyse co-évolutive à l’échelle du génome

Résumé

Advances in sequencing technologies have revolutionized the life sciences. The explosion of genomic sequence data has prompted the development of a wide variety of methods, at the interface between bioinformatics, machine learning, and physics, which aim at gaining a deeper understanding of biological systems from such data.Pairwise coevolutionary methods, in particular Direct Coupling Analysis (DCA), can extract a multitude of information from sequence data alone, such as structural contacts or phenotypic effects of amino-acid substitutions in proteins. While they have been mainly applied to a number of single exemplary proteins, it is now time for a broader application at the level of the whole genome. In this thesis, we build upon and extend these models to address biological questions at the genome scale. In a first project, we investigate the protein-protein interaction network by combining coevolutionary signals at multiple but interconnected scales. In a subsequent project, we discuss the possibility of including complementary information to sequences, such as typical patterns of contacts, to improve the inter-protein contact prediction. Finally, through an extensive genome-wide study of E. coli strains, we show how the machinery of DCA can be used to investigate the fitness landscape properties at the local and global scales.
Les progrès des technologies de séquençage ont révolutionné les sciences de la vie. L’explosion de données de séquences génomiques a conduit au développement d’une grande variété de méthodes, à l’interface entre la bioinformatique, l’apprentissage automatique et la physique, qui visent à approfondir la compréhension des systèmes biologiques à partir de telles données. Les méthodes co-évolutives par paires, telles que l’analyse par couplage direct (DCA), peuvent extraire une multitude d’informations à partir de données de séquence uniquement, telles que des contacts structurels ou des effets phénotypiques de substitutions d’acides aminés dans des protéines. Bien qu’elles aient été principalement appliquées à un certain nombre de protéines exemplaires, il est maintenant temps de les appliquer au niveau du génome entier. Dans cette thèse, nous nous appuions sur ces modèles et les développons pour traiter des questions biologiques à l’échelle du génome. Dans un premier projet, nous avons étudié le réseau d’interactions protéine-protéine en combinant des signaux co-évolutifs à des échelles multiples mais interconnectées. Dans un projet ultérieur, nous discutons de la possibilité d’inclure des informations complémentaires aux séquences, telles que des schémas de contacts typiques, afin d’améliorer la prédiction de contacts entre protéines. Enfin, à travers une vaste étude portant sur l’ensemble du génome des souches d’E. Coli, nous montrons comment les mécanismes de la DCA peuvent être utilisés pour étudier les propriétés du paysage de la fitness à l’échelle locale et globale.
Fichier principal
Vignette du fichier
Croce_Phd_Thesis.pdf (13.83 Mo) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)

Dates et versions

tel-02912097 , version 1 (05-08-2020)
tel-02912097 , version 2 (11-04-2021)

Identifiants

  • HAL Id : tel-02912097 , version 2

Citer

Giancarlo Croce. Towards a genome-scale coevolutionary analysis. Bioinformatics [q-bio.QM]. Sorbonne Université, 2019. English. ⟨NNT : ⟩. ⟨tel-02912097v2⟩
212 Consultations
210 Téléchargements

Partager

Gmail Facebook X LinkedIn More