Analyses et méthodes pour les données transcriptomiques issues d’espèces non modèles : Variation de l’expression des éléments transposables (et des gènes) et variants nucléotidiques - TEL - Thèses en ligne Accéder directement au contenu
Thèse Année : 2017

Analyses and methods for transcriptomic data from non-model species: Variation in the expression of transposable elements (and genes) and nucleotide variants

Analyses et méthodes pour les données transcriptomiques issues d’espèces non modèles : Variation de l’expression des éléments transposables (et des gènes) et variants nucléotidiques

Résumé

Next-generation high throughput sequencing technologies provide efficient, rapid, and low cost access to sequencing. Its application to transcriptomes, called RNA-seq, enables the study of both the sequence and the expression of the transcripts. Many bioinformatics methods are still developed for RNA-seq data processing, trying to get the maximum out of it. Assembly methods allow us to study non-model species (no reference genome available) as well as model species. The work presented here is mostly related to RNA-seq data on non-model species. In the first study, to understand the initiation of hybrid incompatibility, we performed a genome-wide transcriptomic analysis on ovaries from parental lines and on hybrids from reciprocal crosses of D. mojavensis and D. arizonae. We didn’t see a global deregerulation of genes or transposable element. Instead, we show that reciprocal hybrids presented specific gene categories and few transposable element families misexpressed relative to the parental lines. The analytical workflow developed for this project will be used to analyze transcriptomic data from the testis, but also to study the reciprocal crosses from other lines of D. mojavensis with D. arizonae leading to variable levels of sterility in hybrids. A second project tacked here is the identification and quantification of SNPs from RNA-seq data without a reference genome with KisSplice. Kissplice was developed to identified several type of variants (splicing events, indels) directly fromthe de Bruijn graph, build fromthe sequenced reads.We also developed other KisSplice-tools, for downstream analyses of the SNPs, including the prediction o their impact on the protein sequence.
Le développement de la seconde génération de séquenceurs haut débit a généralisé l’accès à l’étude du transcriptome via le protocole RNAseq. Celui-ci permet d’obtenir à la fois la séquence et l’abondance des transcrits d’un échantillon. De nombreuses méthodes bioinformatiques ont été et sont encore développées pour permettre l’analyse des données issues du RNAseq et en tirer le maximum d’information. Ce type d’analyse est notamment possible sans utiliser de génome de référence, et donc pour les espèces modèles ou non-modèles, grâce à des méthodes d’assemblage. Durant ma thèse, j’ai principalement travaillé à partir de données RNA-seq issues d’espèces non modèles. Je me suis intéressée dans un premier temps à l’impact de l’hybridation inter spécifique sur la stabilité des génomes chez les hybrides issus des croisements réciproques de D. mojavensis et D. arizonae. Nos résultats ne montrent pas une dérégulation globale,mais plutôt quelques gènes et éléments transposables qui sont spécifiquement dérégulés. La pipeline d’analyse mis en place ici sera réutilisée pour l’étude des niveaux d’expression des transcrits chez les mâles ainsi que pour les croisements issus d’autres lignées de D. mojavensis avec D. arizonae, conduisant à une fertilité variable chez les hybrides. Dans un second temps, j’ai participé à la validation du logiciel KisSplice pour la détection de SNP dans des données RNA-seq sans génome de référence. Celui-ci permet de trouver différents types de variants (épissage, indels) directement dans le graphe de de Bruijn construit à partir des lectures séquencées. J’ai également participé au développement d’outils de post-traitement permettant de prédire l’impact des SNP sur les protéines.
Fichier principal
Vignette du fichier
these_lopez.pdf (36.18 Mo) Télécharger le fichier

Dates et versions

tel-01575640 , version 1 (21-08-2017)
tel-01575640 , version 2 (07-09-2017)
tel-01575640 , version 3 (14-09-2017)

Licence

Paternité

Identifiants

  • HAL Id : tel-01575640 , version 1

Citer

Hélène Lopez-Maestre. Analyses et méthodes pour les données transcriptomiques issues d’espèces non modèles : Variation de l’expression des éléments transposables (et des gènes) et variants nucléotidiques. Bio-Informatique, Biologie Systémique [q-bio.QM]. Université Claude Bernard Lyon 1, 2017. Français. ⟨NNT : ⟩. ⟨tel-01575640v1⟩
755 Consultations
2442 Téléchargements

Partager

Gmail Facebook X LinkedIn More