Style du génome exploré par analyse textuelle de l'ADN - TEL - Thèses en ligne Accéder directement au contenu
Thèse Année : 2006

Genome style explored by textual data analysis of DNA

Style du génome exploré par analyse textuelle de l'ADN

Résumé

DNA sequences can be considered as texts write in a 4-letters alphabet. A technique inspired from textual data analysis characterizes these sequences by short oligonucleotide (or word) frequencies. The whole word frequencies is called “genomic signature” (the “signature” term is justified because this set is species-specificity). Since the genomic signature can be observed in DNA segments as short as 1Kb, it appears to result from a “writing style” that characterizes the organization of DNA all over each genome. Moreover, proximities between species from the genomic signature point of view often correspond to proximities from the taxonomic point of view. However, the genomic signatures analysis is quickly confronted with limitations due to the curse of dimension. Indeed, the high dimensional data (the genomic signature generally has 256 dimensions) show unusual properties. For example, the concentration of Euclidean distances phenomenon is well known.
From these observations, we set up procedures to evaluate metrics in order to emphasize biological information extractable from genomic signatures. A associated non-linear method for vicinities' representation frees from the curse of dimension and allows to visualize space occupied by data. The analysis of relations between signatures poses the problem of the contribution of each variable (the words) to the distance between signatures. An original Z-score based on the variation of word frequencies along genomes make it possible to quantify these contributions. The comparison between “local signatures” permit to extract original regions. Besides, the precise segmentation of original regions is computed thanks to a method based on signal analysis.
From this set of methods, we can propose diverse biological results. In particular, we highlight an organization in the genomic signatures space coherent with species taxonomy. Moreover, we note the presence of a “DNA syntax” : there are “syntactic words” and “semantic words”. The signature is especially based on syntactic words. Lastly, the analysis of signatures along genome allows detection and precise segmentation of RNA and probable horizontal transfers. The convergence of the horizontal transfer styles towards host signature can besides be observed.
Diverse kind of results was obtained by signature analysis. Thus, ease of use and speed of the genomic signature analysis make it a powerful tool to extract biological information from genomes.
Les séquences d'ADN peuvent être considérées comme des textes écrits dans un alphabet de 4 lettres. Des techniques inspirées de l'analyse textuelle permettent donc de les caractériser, entre autres à partir de fréquences d'apparition de courtes suites de caractères (les oligonucléotides ou mots). L'ensemble des fréquences des mots d'une longueur donnée est appelé « signature génomique » (cet ensemble est spécifique de l'espèce, ce qui justifie le terme de « signature »). La signature d'espèce est observable sur la plupart des courts fragments d'ADN, ce qui donne à penser qu'elle résulte d'un « style d'écriture ». De plus, la proximité entre espèces du point de vue de la signature génomique correspond bien souvent à une proximité en terme taxonomique. Pourtant, l'analyse des signatures génomiques se confronte rapidement à des limitations dues à la malédiction de la dimension. En effet, les données de grande dimension (la signature génomique a généralement 256 dimensions) montrent des propriétés qui mettent en défaut l'intuition. Par exemple, le phénomène de concentration des distances euclidiennes est bien connu.
Partant de ces constatations, nous avons mis en place des procédures d'évaluation des distances entre signatures de façon à rendre plus manifeste les informations biologiques sur lesquelles s'appuient nos analyses. Une méthode de projection non-linéaire des voisinages y est associée ce qui permet de s'affranchir des problèmes de grande dimension et de visualiser l'espace occupé par les données. L'analyse des relations entre les signatures pose le problème de la contribution de chaque variable (les mots) à la distance entre les signatures. Un Z-score original basé sur la variation de la fréquence des mots le long des génomes a permis de quantifier ces contributions. L'étude des variations de l'ensemble des fréquences le long d'un génomes permet d'extraire des segments originaux. Une méthode basée sur l'analyse du signal permet d'ailleurs de segmenter précisément ces zones originales.
Grâce à cet ensemble de méthodes, nous proposons des résultats biologiques. En particulier, nous mettons en évidence une organisation de l'espace des signatures génomiques cohérente avec la taxonomie des espèces. De plus, nous constatons la présence d'une syntaxe de l'ADN : il existe des « mots à caractère syntaxique » et des « mots à caractère sémantique », la signature s'appuyant surtout sur les mots à caractère syntaxique. Enfin, l'analyse des signatures le long du génome permet une détection et une segmentation précise des ARN et de probables transferts horizontaux. Une convergence du style des transferts horizontaux vers la signature de l'hôte a d'ailleurs pu être observée.
Des résultats variés ont été obtenus par analyse des signatures. Ainsi, la simplicité d'utilisation et la rapidité de l'analyse des séquences par signatures en font un outil puissant pour extraire de l'information biologique à partir des génomes.
Fichier principal
Vignette du fichier
These_Lespinats.pdf (4 Ko) Télécharger le fichier

Dates et versions

tel-00151611 , version 1 (04-06-2007)

Identifiants

  • HAL Id : tel-00151611 , version 1

Citer

Sylvain Lespinats. Style du génome exploré par analyse textuelle de l'ADN. Sciences du Vivant [q-bio]. Université Pierre et Marie Curie - Paris VI, 2006. Français. ⟨NNT : ⟩. ⟨tel-00151611⟩
210 Consultations
87 Téléchargements

Partager

Gmail Facebook X LinkedIn More