Étude de l'évolution combinatoire des gènes par l'analyse de réseaux de similarité de séquence - TEL - Thèses en ligne Accéder directement au contenu
Thèse Année : 2014

Using sequence similarity networks to study combinatorial evolution of genes

Étude de l'évolution combinatoire des gènes par l'analyse de réseaux de similarité de séquence

Résumé

The recent accumulation of genomic sequence data has shown that gene evolution is not strictly tree-Like. Many evolutionary processes, like exon shuffling, gene fusion or nonhomologous recombination remodel genes by creating composite structures that are made from parts with different evolutionary histories. The development of sequence similarity networks provides an analytical framework to study the impact of these processes on molecular evolution, by structuring the resemblance relationships between sequences and by formalizing, in terms of graph theory, the detection of composite genes (intransitive triplets) and gene families (clique minimal separators). The size of current data sets, typically several million sequences, has also required the development of new tools and methods: sequence comparison parallelization, large networks visualization with Louvain communities and large cycles identification. When applied to eukaryotic and viral genome data sets, these methods have shown that composite genes are found throughout cellular organisms and mobile genetic elements. Proportionally, composite genes are more numerous in eukaryotic genomes; in absolute number, they are more numerous in viruses. In the latter, composite genes functional distribution is biased (enrichment of genes families that are essential for the perpetuation of the viral cycle), and the various parts of composite genes sometimes even originate from the genetic material of different viral classes. More generally, the extent of combinatorial processes, by unravelling other evolutionary bonds than homology bonds in the strictest sense, legitimates a pluralistic study of similarity relationships between sequences.
L’accumulation récente de données de séquences génomiques a montré que l’évolution des gènes n’est pas strictement arborescente. De nombreux processus évolutifs, comme l’exon shuffling, la fusion de gènes ou la recombinaison illégitime remodèlent les gènes, créant des structures composites, formées de parties dont les histoires évolutives sont différentes. Le développement de réseaux de similarité de séquences fournit un cadre analytique permettant d’étudier l’impact de ces processus sur l’évolution moléculaire, en structurant les relations de ressemblance entre séquences et en formalisant en termes de graphes la détection de gènes (triplets intransitifs) et de familles de gènes (cliques minimales séparatrices) composites. La taille des jeux de données actuels, de l’ordre de plusieurs millions de séquences, a également requis le développement de nouveaux outils et méthodes : parallélisation des comparaisons de séquences, visualisation de très grands réseaux par simplification en communautés de Louvain et identification de grands cycles. Appliquées à des jeux de données de génomes eucaryotes et viraux, ces méthodes ont démontré la présence de gènes composites dans tout le vivant et les éléments génétiques mobiles. En proportion, les gènes composites sont plus nombreux dans les génomes eucaryotes ; en nombre absolu, ils sont plus nombreux à être portés par des virus. Chez ces derniers, la distribution fonctionnelle des gènes composites est biaisée (enrichissement dans les familles essentielles pour la perpétuation du cycle viral), et les éléments des gènes composites trouvent même parfois leurs origines dans le matériel génétique de classes virales différentes. Plus généralement, l’étendue des processus combinatoires, en révélant des liens évolutionnaires autres que les liens d’homologie au sens fort, justifie une étude pluraliste des relations de similarité entre séquences.
Fichier principal
Vignette du fichier
2014PA066358.pdf (25.51 Mo) Télécharger le fichier
Origine : Version validée par le jury (STAR)

Dates et versions

tel-01127379 , version 1 (07-03-2015)

Identifiants

  • HAL Id : tel-01127379 , version 1

Citer

Pierre-Alain Jachiet. Étude de l'évolution combinatoire des gènes par l'analyse de réseaux de similarité de séquence. Sciences agricoles. Université Pierre et Marie Curie - Paris VI, 2014. Français. ⟨NNT : 2014PA066358⟩. ⟨tel-01127379⟩
362 Consultations
123 Téléchargements

Partager

Gmail Facebook X LinkedIn More