Multivariate analysis of high-throughput sequencing data

Résumé : L'analyse statistique de données de séquençage à haut débit (NGS) pose des questions computationnelles concernant la modélisation et l'inférence, en particulier à cause de la grande dimension des données. Le travail de recherche dans ce manuscrit porte sur des méthodes de réductions de dimension hybrides, basées sur des approches de compression (représentation dans un espace de faible dimension) et de sélection de variables. Des développements sont menés concernant la régression "Partial Least Squares" parcimonieuse (supervisée) et les méthodes de factorisation parcimonieuse de matrices (non supervisée). Dans les deux cas, notre objectif sera la reconstruction et la visualisation des données. Nous présenterons une nouvelle approche de type PLS parcimonieuse, basée sur une pénalité adaptative, pour la régression logistique. Cette approche sera utilisée pour des problèmes de prédiction (devenir de patients ou type cellulaire) à partir de l'expression des gènes. La principale problématique sera de prendre en compte la réponse pour écarter les variables non pertinentes. Nous mettrons en avant le lien entre la construction des algorithmes et la fiabilité des résultats.Dans une seconde partie, motivés par des questions relatives à l'analyse de données "single-cell", nous proposons une approche probabiliste pour la factorisation de matrices de comptage, laquelle prend en compte la sur-dispersion et l'amplification des zéros (caractéristiques des données single-cell). Nous développerons une procédure d'estimation basée sur l'inférence variationnelle. Nous introduirons également une procédure de sélection de variables probabiliste basée sur un modèle "spike-and-slab". L'intérêt de notre méthode pour la reconstruction, la visualisation et le clustering de données sera illustré par des simulations et par des résultats préliminaires concernant une analyse de données "single-cell". Toutes les méthodes proposées sont implémentées dans deux packages R: plsgenomics et CMF
Type de document :
Thèse
Statistics [math.ST]. Université de Lyon, 2016. English. 〈NNT : 2016LYSE1334〉
Liste complète des métadonnées

Littérature citée [235 références]  Voir  Masquer  Télécharger

https://tel.archives-ouvertes.fr/tel-01581175
Contributeur : Abes Star <>
Soumis le : lundi 4 septembre 2017 - 14:10:19
Dernière modification le : jeudi 28 juin 2018 - 14:36:31

Fichier

TH2016DurifGhislain.pdf
Version validée par le jury (STAR)

Identifiants

  • HAL Id : tel-01581175, version 1

Citation

Ghislain Durif. Multivariate analysis of high-throughput sequencing data. Statistics [math.ST]. Université de Lyon, 2016. English. 〈NNT : 2016LYSE1334〉. 〈tel-01581175〉

Partager

Métriques

Consultations de la notice

368

Téléchargements de fichiers

169