Statistical modelling for differential gene expression studies: variance-covariance models, sequential and meta-analysis. - TEL - Thèses en ligne Accéder directement au contenu
Thèse Année : 2009

Statistical modelling for differential gene expression studies: variance-covariance models, sequential and meta-analysis.

Modélisation statistique pour la recherche de gènes différentiellement exprimés: modèles de variance-covariance, analyse séquentielle et méta-analyse

Résumé

Microarrays enable to simultaneously study gene expression levels from several thousands of genes with very few samples. Three approaches are considered in this PhD work in order to overcome sensitivity problems in differential gene expression studies: variance-covariance modelling, sequential and metaanalysis. The first and the third parts mainly rely on shrinkage approaches, which consist in estimating each individual gene value by taking into account information from all genes of the experiment. By decreasing the total number of parameters to estimate, this increases sensitivity, that is to say the proportion of true positives among the truly differentially expressed genes. While variance modelling is always useful with small sample size designs, covariance modelling is especially important in time course studies where measures are repeated on the same individuals. Concerning sequential analysis, sensitivity is studied as a stopping rule. The aim is to stop the experiment before the scheduled end as soon as this criterion is higher than a given threshold, which enables to decrease costs. Meta-analysis is then studied in a wider context than sequential analysis where intermediate analyses were combined. It increases sensitivity by gathering results from individual studies, for which a direct comparison would be impossible, but answering the same biological question. Meta-analysis is studied both from the frequentist (effect size and p-value combinations) and the bayesian points of view.
Les puces à ADN permettent d'étudier simultanément l'expression de plusieurs milliers de gènes à partir de peu d'individus biologiques. Trois approches sont considérées dans cette thèse pour résoudre les problèmes de sensibilité dans la recherche de gènes différentiellement exprimés: la modélisation des variances-covariances, l'analyse séquentielle et la méta-analyse. La première et la troisième partie reposent principalement sur des approches dites de 'shrinkage' qui estiment les valeurs de chaque gène à partir de l'information provenant de l'ensemble des gènes. En diminuant le nombre de paramètres à estimer, elles permettent d'augmenter la sensibilité. La modélisation des variances se révèle particulièrement utile dans le cas d'expériences avec de petits échantillons. La modélisation des covariances est quant à elle particulièrement pertinente pour les études de suivi longitudinal où les mesures sont répétées sur les mêmes individus au cours du temps. Côté analyse séquentielle, la sensibilité est étudiée en tant que règle d'arrêt. On cherche alors à arrêter une expérience en cours dès que ce critère dépasse un certain seuil, afin d'en diminuer les coûts. La méta-analyse est ensuite étudiée dans un contexte beaucoup plus général que celui de l'analyse séquentielle où on combinait les analyses intermédiaires. Elle permet de gagner de la sensibilité en regroupant des résultats d'études individuelles qui ne sont pas comparables directement mais qui répondent à une même question biologique. La méta-analyse est abordée à la fois sous l'angle fréquentiste (combinaison de grandeurs des effets ou combinaison de p-values) et sous l'angle bayésien.
Fichier principal
Vignette du fichier
phDreportGMarot.pdf (4.68 Mo) Télécharger le fichier
PhDdefence.pdf (1.17 Mo) Télécharger le fichier
Format : Autre

Dates et versions

tel-00458988 , version 1 (22-02-2010)

Identifiants

  • HAL Id : tel-00458988 , version 1
  • PRODINRA : 248387

Citer

Guillemette Marot. Statistical modelling for differential gene expression studies: variance-covariance models, sequential and meta-analysis.. Life Sciences [q-bio]. AgroParisTech, 2009. English. ⟨NNT : 2009AGPT0039⟩. ⟨tel-00458988⟩
289 Consultations
1570 Téléchargements

Partager

Gmail Facebook X LinkedIn More