Identifier les variations conduisant au cancer dans le génome non codant et du transcriptome

Jia Li

Résumé

Functional annotation of somatic mutations have been a consistent hotspot of cancer genomics studies. In the past, researchers preferentially focused on mutations in the coding fraction of the genome, for which ample bioinformatics tools were developed to distinguish cancer-driver mutations from neutral ones. In recent years, as an increasing number of variants were being identified as disease-associated in the non-coding genome, interpreting non-coding cancer mutations has become an urgent task. The completion of large scale projects such as ENCODE, has made functional interpretation of cancer variants achievable, and several programs were produced based on this functional information. However, there still exists some limitations as to these prediction tools, such as low prediction accuracy, lack of cancer mutation information and significant ascertainment bias. In chapter 2 of this thesis, in order to functionally interpret non-coding mutations in cancer, we developed two independent random forest models, referred to as SNP and SOM. Given a combination of features at a given genome positions, the SNP model predicts the expected fraction of rare SNPs (a measure of negative selection), and the SOM model predicts the expected mutation density at this position. We applied our two models to score these non-coding disease-associated clinvariant and HGMD variants and a set of random control SNPs. Results showed that disease-associated variants were scored higher than control SNPs with the SNP model and lower than control SNPs with the SOM model, supporting our hypothesis that purifying selection as measured by fraction of rare SNPs and mutation density is informative for the evaluation of the functional impact of cancer mutations in the non-coding genome. In the past, researchers have preferentially considered protein-coding genes as critical to the initiation and progression of cancers. However, recent evidences have shown that ncRNAs, in particular lncRNAs, are actively implicated in various cancer processes. A chapter of this thesis is devoted to this class of non-coding transcripts. Similar to protein coding genes, there might be a large number of lncRNAs with cancer-driving functions. The development of bioinformatics tools to prioritize them has become a new focus of research for computational oncologists.The last part of this thesis is devoted to the implementation of methods for discovering potential cancer-driving non-coding elements in lncRNA and protein-coding genes. We applied three scoring tools, CADD, funSeq2, GWAVA, together with our SNP and SOM scoring systems to prioritize cancer-associated elements using a permutation-based algorithm. For each locus, we compute the average score of all observed variants using one of the models, and we randomly take the same number of variants and compute their average score 1 million times to form a null distribution and obtain a P value for this locus. To validate our hypothesis and permutation model, we tested this system on 61 cancer-related lncRNA and 452 cancer genes using somatic mutation data from liver cancer, lung cancer, CLL and melanoma. We observed that both cancer lncRNAs and protein-coding genes had significantly lower average P values than total lncRNAs and protein-coding genes in all cases. Applying the permutation test to lncRNAs with five different scoring systems enabled us to prioritize hundreds to thousands of cancer-related lncRNA candidates. These candidates can be used for future experimental validation.

L'annotation fonctionnelle de mutations somatiques est un point focal des études de génomique du cancer. Jusque récemment, la recherche s'est concentré sur des mutations dans la fraction codante du génome, pour lesquelles de puissants outils bioinformatiques ont été développés afin de distinguer des mutations délétères des mutations neutres. On identifie un nombre croissant de variants associés à des maladies dans le génome non-codant. L'interprétation des mutations non-codantes dans le cancer est donc devenue une tâche urgente. Des projets de grande envergure tels que ENCODE ont rendu possible l'interprétation fonctionnelle de variants dans les cancers. Plusieurs programmes ont été produits sur la base de ces informations fonctionnelles. Ces outilssont encore limités, notamment, une bas précision de la prédiction, le manque d'information de la mutation de cancer et biais de constatation importante. Dans le chapitre 2 de cette thèse, pour interpréter fonctionnellement les mutations non-codantes dans les cancers, nous avons développé deux modèles de forêts aléatoires indépendants, appelées SNP et SOM. Compte tenu de la combinaison de caractéristiques fonctionnelles à une position donnée du génome, le modèle SNP prédit la fraction de SNP rares (une mesure de la sélection négative), et le modèle SOM prédit la densité de mutations somatiques attendue à cette position. Nous avons appliqué nos deux modèles pour évaluer des clinvariant and HGMD variants asociés à des maladies, et un ensemble de SNP-contrôle aléatoires. Les résultats ont montré que les variants associés à des maladies ont des scores plus élevés que les SNP-contrôle avec le modèle SNP et inférieures avec le modèle SOM, confortant notre hypothèse selon laquelle la sélection négative, telle que mesurée par fraction de SNP rares et de densité de mutation somatiques, nous informe sur l'impact fonctionnel des mutations tumorales dans le génome non-codant. Jusqu'à présent, les chercheurs ont surtout considéré les gènes protéiques comme critiques dans l'initiation et la progression des cancers. Toutefois, des preuves récentes ont montré que les ARN non-codants, en particulier les lncRNAs, sont activement impliqués dans divers processus de cancer. Un chapitre de cette thèse est consacré à cette classe de transcripts non codants. Comme pour les gènes codants, il pourrait exister un grand nombre de lncRNAs driver de cancer. Le développement d'outils bioinformatiques pour identifier et hiérarchiser les lncRNA et autres ARN non-codants est devenu un important objet de recherche en oncologie.La dernière partie de cette thèse est consacrée à la mise en œuvre de méthodes pour découvrir des éléments non-codants potentiellement driver de cancer. Nous avons d'abord appliqué trois outils tierces, CADD, funSeq2, GWAVA, ainsi que nos modèles SNP et SOM, pour évaluer l'impact des mutations non-codantes dans tout le génome. Pour chaque locus, nous calculons la moyenne des scores de tous les variants observés à l'aide de l'un des modèles, et nous prenons au hasard le même nombre de variants et calculons leur score moyen 1 million de fois pour former une distribution nulle et obtenir une P-valeur pour ce locus. Pour valider notre hypothèse et notre modèle de permutation, nous avons testé ce système sur 452 gènes codants et 61 lncRNA liés au cancer, en utilisant des données de mutation somatique de cancer du foie, cancer du poumon, CLL et mélanome. Nous avons constaté que les lncRNAs et gènes codants associés au cancer avaient des valeurs-P significativement plus faibles que l'ensemble de lncRNAs et gènes codant. Appliquer ce test de permutation à des lncRNAs avec cinq systèmes de notation différents nous a permis de prioriser les centaines de candidats potentiellement liés au cancer.Ces candidats peuvent maintenant être soumis à validation expérimentale.

Identifying cancer driver variations in the non-coding genome andtranscriptome

Identifier les variations conduisant au cancer dans le génome non codant et du transcriptome

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager