Assessment of Hardy-Weinberg equilibrium and detection of chromosomal deletions in exome-wide sequencing data from large datasets : exploiting large exome datasets to improve identification of clinically relevant genetic variants - TEL - Thèses en ligne Accéder directement au contenu
Thèse Année : 2020

Assessment of Hardy-Weinberg equilibrium and detection of chromosomal deletions in exome-wide sequencing data from large datasets : exploiting large exome datasets to improve identification of clinically relevant genetic variants

Intérêt de l'équilibre de Hardy-Weinberg et détection des délétions chromosomiques dans les données de séquençage d’exome à partir de grands ensembles de données

Résumé

A major focus of human genetics is on the identification of variants that may contribute to human diseases or adaptive traits. Next-generation sequencing (NGS) approaches, including whole exome sequencing (WES), provide unprecedent opportunities for discovering novel variants that may underlie susceptibility or resistance to disease. The basic principle of WES is the sequencing of coding regions, whereby DNA probes or baits are used to hybridize with the protein-coding portion of the genome, isolating it from the non-coding portions. After sequencing, millions of DNA sequences, known as reads, are aligned to a reference genome and undergo many types of downstream analysis, whereby the common goal is to identify novel targets underlying the scientific question that is being asked. Since its inception, NGS methods, including WES, have been providing an enormous amount of data at sustainable costs but also posing considerable challenges for the analysis and interpretation of the results. These technological advances increasingly require the development of sophisticated computational approaches, thus generating new research avenues in order to appropriately analyze and interpret enormous amounts of data. In turn, the wealth of exome data accumulated over the years has given the opportunity to pose scientific questions in ways that could not be possible earlier. My thesis took advantage from both these aspects. First, I developed a computational approach that allows filtering of false positive variants that cannot be discarded with traditional bioinformatic approaches. We collectively referred to these variants as ‘blacklist’ and characterized them computationally and experimentally, discovering that a subset is out of Hardy-Weinberg (HW) equilibrium, a fundamental population genetic principle typically used as a filtering criterion in large-scale genotyping studies (e.g. GWAS). Based on these initial findings, we are currently studying HW equilibrium systematically and at a larger scale to determine whether HW equilibrium could be used not only to detect technical errors but also to inform about important phenomena relevant to population genetics. Our preliminary data focusing on variants with an excess or loss of homozygotes for the minor allele revealed promising candidate variants that could be indicative of protection (eg in FUT2, SMN2) or disadvantage (eg in FANCD2) to disease. Second, I tackled the question of detection of copy number variants (CNVs) in WES data. CNVs are a specific class of variants traditionally difficult to detect in exome data of typical laboratory cohorts that are generated over time. In my thesis, I developed HMZDelFinder-opt, an algorithm that allows identification of partial exon homozygous and hemizygous deletions. Using HMZDelFinder_opt with both validated disease-causing deletions and simulated data, we demonstrated that the a priori selection of a reference control set with a coverage profile similar to that of the WES sample studied reduced the number of deletions detected, while improving the ranking of the true homozygous deletion. HMZDelFinder_opt also fills the gap in the study of deletions spanning less than an exon, by providing the first tool for the systematic identification of partial exon deletions. Collectively, these projects tackle heretofore-unexamined topics and hold promise to discover novel causal determinants of human diseases or traits.
Un des principaux centres d'intérêt de la génétique humaine est l'identification des variants qui peuvent contribuer aux maladies humaines ou aux traits adaptatifs. Les approches de séquençage de nouvelle génération (NGS), y compris le séquençage de l'exome entier (WES), offrent des opportunités sans précédent pour découvrir de nouveaux variants impliqués dans la sensibilité ou la résistance à une pathologie. Le principe de base du WES est le séquençage des régions codantes, grâce auquel des sondes ADN sont utilisées pour s'hybrider avec la partie codante du génome. Après le séquençage, des millions de séquences d'ADN, appelées reads, sont alignées sur un génome de référence et sont analysées par différents outils, avec l'objectif d'identifier de nouvelles cibles pertinentes pour la question scientifique posée. Depuis leur création, les méthodes NGS, y compris le WES, ont fourni une énorme quantité de données qui posent des défis considérables pour leur analyse et l'interprétation des résultats correspondants. Ces avancées technologiques nécessitent de plus en plus le développement d'approches méthodologiques sophistiquées, générant ainsi de nouvelles questions de recherche afin d'optimiser l’analyse de ces données. Ainsi, les volumes de données d'exome accumulées au fil des ans permet de poser des questions scientifiques nouvelles. Ma thèse a porté sur ces aspects. Tout d'abord, j'ai développé une approche qui permet de filtrer les variants qui sont des faux positifs et qui n’étaient pas éliminés avec les approches bioinformatiques classiques. Nous avons regroupé ces variants dans une « blacklist » et les avons caractérisés in silico et de façon expérimentale. Nous avons en particulier montré qu'un sous-ensemble de ces variants ne respectaient pas l'équilibre de Hardy-Weinberg (HW), un principe fondamental de génétique des populations généralement utilisé comme critère de filtre dans les études de génotypage à grande échelle ( par exemple les études d’association génome entier). Sur la base de ces résultats initiaux, nous avons débuté une étude plus systématique de l'équilibre HW à plus grande échelle pour déterminer si ce test pourrait être utilisé non seulement pour détecter des erreurs techniques, mais aussi pour informer sur des phénomènes importants et pertinents en termes de génétique des populations. Nos données préliminaires se concentrant sur les variants avec un excès ou une perte d'homozygotes pour l'allèle mineur ont révélé certains variants candidats prometteurs qui pourraient indiquer un effet protecteur (dans FUT2, et SMN2) ou désavantageux (dans FANCD2) vis-à-vis ce certaines pathologies. Au cours de cette thèse, j'ai également abordé la question de la détection des variations du nombre de copies (CNV) dans les données WES. Les CNV sont une classe spécifique de variants traditionnellement difficiles à détecter dans les données d'exome de cohortes de laboratoire qui sont générées au fil du temps. Dans ma thèse, j'ai développé HMZDelFinder-opt, un algorithme qui permet d’optimiser la détection de délétions homozygotes et hémizygotes et d'identifier des délétions partielles d'exons. En utilisant HMZDelFinder_opt avec à la fois des délétions pathogènes validées et des données simulées, nous avons démontré que la sélection optimisée d'un ensemble d’exomes contrôles de référence avec un profil de couverture similaire à celui de l'échantillon WES étudié réduisait le nombre de délétions faussement détectées, tout en améliorant l’identification des véritables délétions homozygotes. HMZDelFinder_opt permet également de fournir un nouvel outil pour l'identification systématique des délétions partielles d'exon. Au total, les questions traités dans ma thèse ont permis de proposer des approches nouvelles afin d’améliorer l’identification de nouveaux déterminants génétiques de pathologies humaines.
Fichier principal
Vignette du fichier
Bigio_Benedetta_va.pdf (31.71 Mo) Télécharger le fichier
Origine : Version validée par le jury (STAR)

Dates et versions

tel-04210907 , version 1 (19-09-2023)

Identifiants

  • HAL Id : tel-04210907 , version 1

Citer

Benedetta Bigio. Assessment of Hardy-Weinberg equilibrium and detection of chromosomal deletions in exome-wide sequencing data from large datasets : exploiting large exome datasets to improve identification of clinically relevant genetic variants. Bioinformatics [q-bio.QM]. Université Paris Cité, 2020. English. ⟨NNT : 2020UNIP5200⟩. ⟨tel-04210907⟩

Collections

STAR UP-SANTE
25 Consultations
4 Téléchargements

Partager

Gmail Facebook X LinkedIn More