Unsupervised representation learning for single-cell transcriptomic and epigenomic data

Felix Raimundo

Résumé

In recent years, single-cell transcriptomics and epigenomics have allowed biologist to observe tissues at a new resolution.Using these protocols, we are now able to observe the whole distribution of cell states within a tissue, instead of justmeasuring an aggregate cell state. With these new types of measurements has come the need for new statistical methodsto analyze them. Indeed the previous generation of analysis tools were designed for a regime of few high quality samples,while these new measurements are much higher in quantity, but of significantly lower quality. This problem of low quality iseven more pronounced for single-cell epigenomics protocols, due to cells only having two copies of the genome, comparedto the hundreds of thousands of RNA molecules present in the cell. Since epigenomics and transcriptomics profiles areevaluated across a high number of variables, there has been a great interest in methods for reducing the dimension ofthe data.This explosion of interest has led to numerous new algorithms and a thriving community of methods developers. Theirwork has however not yet been fully adopted by practicing bioinformaticians, either because they were not deemed reliableenough, or because they failed to properly answer biological questions. In this thesis, we measured how reliable thesenew methods are, as well as how they are affected by the steps preceding them. We found that the recent deep learningmethods fail to outperform linear methods on current datasets, for most modalities. We further found, for epigeneticassays, that the feature engineering steps were more important than the dimension reduction algorithm, in order to obtaingood representation of cells. We further attempted to develop a novel algorithm to learn embeddings of epigenomicmeasurements in an end-to-end fashion, learning at once both the low-dimension representation of the cells, as well as the epigenomic annotation.

Ces dernières années, la transcriptomique et l'épigénomique en cellule unique ont permis aux biologistes d'observer lestissus à une nouvelle résolution. Grâce à ces protocoles, nous sommes maintenant en mesure d'observer l'ensemblede la distribution des états cellulaires dans un tissu, au lieu de simplement leur agrégat. Avec ces nouveaux types demesures, est apparu le besoin de nouvelles méthodes statistiques pour les analyser. En effet, la génération précédented'outils d'analyse était conçue pour un régime de peu d'échantillons de haute qualité, alors que ces nouvelles mesures sontbeaucoup plus importantes en quantité, mais de qualité nettement inférieure. Ce problème de faible qualité est encoreplus prononcé pour les protocoles d'épigénomique en cellule unique, du fait que les cellules ne possèdent que deux copiesdu génome, par rapport aux centaines de milliers de molécules d'ARN présentes dans la cellule. Le profil transcriptomiqueet épigénomique des cellules étant mesuré en grande dimension, la communauté scientifique s'est beaucoup intéresséeaux méthodes permettant de réduire la dimension des données.Cette explosion d'intérêt a conduit à de nombreux nouveaux algorithmes et à une communauté florissante de développeursde méthodes. Leurs travaux n'ont cependant pas encore été adoptés par les bioinformaticiens, soit parce qu'ils n'étaientpas jugés suffisamment fiables, soit parce qu'ils ne répondaient pas correctement aux questions biologiques. Dans cettethèse, nous avons tenté de mesurer la fiabilité de ces nouvelles méthodes, ainsi que la façon dont elles sont affectéespar les étapes qui les précèdent. Nous avons en outre tenté de développer un nouvel algorithme pour apprendre desreprésentations de mesures épigénétiques de bout en bout, apprenant ainsi à la fois la représentation des cellules, ainsiqu'une annotation du génome.

Unsupervised representation learning for single-cell transcriptomic and epigenomic data

Apprentissage non supervise pour l'epigenomique et transcriptomique en cellules uniques

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager