Classification et inférence de réseaux pour les données RNA-seq

Résumé : Cette thèse regroupe des contributions méthodologiques à l'analyse statistique des données issues des technologies de séquençage du transcriptome (RNA-seq). Les difficultés de modélisation des données de comptage RNA-seq sont liées à leur caractère discret et au faible nombre d'échantillons disponibles, limité par le coût financier du séquençage. Une première partie de travaux de cette thèse porte sur la classification à l'aide de modèle de mélange. L'objectif de la classification est la détection de modules de gènes co-exprimés. Un choix naturel de modélisation des données RNA-seq est un modèle de mélange de lois de Poisson. Mais des transformations simples des données permettent de se ramener à un modèle de mélange de lois gaussiennes. Nous proposons de comparer, pour chaque jeu de données RNA-seq, les différentes modélisations à l'aide d'un critère objectif permettant de sélectionner la modélisation la plus adaptée aux données. Par ailleurs, nous présentons un critère de sélection de modèle prenant en compte des informations biologiques externes sur les gènes. Ce critère facilite l'obtention de classes biologiquement interprétables. Il n'est pas spécifique aux données RNA-seq. Il est utile à toute analyse de co-expression à l'aide de modèles de mélange visant à enrichir les bases de données d'annotations fonctionnelles des gènes. Une seconde partie de travaux de cette thèse porte sur l'inférence de réseau à l'aide d'un modèle graphique. L'objectif de l'inférence de réseau est la détection des relations de dépendance entre les niveaux d'expression des gènes. Nous proposons un modèle d'inférence de réseau basé sur des lois de Poisson, prenant en compte le caractère discret et la grande variabilité inter-échantillons des données RNA-seq. Cependant, les méthodes d'inférence de réseau nécessitent un nombre d'échantillons élevé.Dans le cadre du modèle graphique gaussien, modèle concurrent au précédent, nous présentons une approche non-asymptotique pour sélectionner des sous-ensembles de gènes pertinents, en décomposant la matrice variance en blocs diagonaux. Cette méthode n'est pas spécifique aux données RNA-seq et permet de réduire la dimension de tout problème d'inférence de réseau basé sur le modèle graphique gaussien.
Liste complète des métadonnées

https://tel.archives-ouvertes.fr/tel-01424124
Contributeur : Abes Star <>
Soumis le : lundi 2 janvier 2017 - 01:19:27
Dernière modification le : jeudi 11 janvier 2018 - 06:25:42
Document(s) archivé(s) le : lundi 3 avril 2017 - 20:27:50

Fichier

73364_GALLOPIN_2015_diffusion....
Version validée par le jury (STAR)

Identifiants

  • HAL Id : tel-01424124, version 1

Collections

Citation

Mélina Gallopin. Classification et inférence de réseaux pour les données RNA-seq. Statistiques [math.ST]. Université Paris-Saclay, 2015. Français. 〈NNT : 2015SACLS174〉. 〈tel-01424124〉

Partager

Métriques

Consultations de la notice

379

Téléchargements de fichiers

605