Network inference from incomplete abundance data - TEL - Thèses en ligne Accéder directement au contenu
Thèse Année : 2020

Network inference from incomplete abundance data

Inférence de réseaux à partir de données d'abondances in­complètes

Résumé

Networks are tools used to represent species relationships in microbiology and ecology. Gaussian Graphical Models provide with a mathematical framework for the inference of conditional dependency networks, which allow for a clear separation of direct and indirect effects. However observed data are often discrete counts and the inference cannot be directly performed with this model. This work develops a methodology for network inference from species observed abundances. The method relies on specific algebraic properties of spanning tree structures to perform an efficient and complete exploration of the space of spanning trees. The inference takes place in a latent space of the observed counts.Then, observed abundances are likely to depend on unmeasured actors (e.g. species or covariate). This results in spurious edges in the marginal network between the species linked to the latter in the complete network, causing inaccurate further analysis. The second objective of this work is to account for missing actors during network inference. To do so we adopt a variational approach yielding valuable insights about the missing actors.
Les réseaux sont utilisés comme outils en microbiologie et en écologie pour représenter des relations entre espèces. Les modèles graphiques gaussiens sont le cadre mathématique dédié à l'inférence des réseaux de dépendances conditionnelles, qui permettent une séparation claires des effets directs et indirects. Cependant, les données observées sont souvent des comptages discrèts qui ne permettent pas l'utilisation de ce modèle. Cette thèse développe une méthodologie pour l'inférence de réseaux à partir de données d'abondance d'espèces. La méthode repose sur une exploration efficace et exhaustive de l'espace des arbres couvrants dans un espace latent des comptages observés, rendue possible par les propriétés algébriques de ces structures.Par ailleurs, il est probable que les comptages observés dépendent d'acteurs non mesurés (espèces ou covariable). Ce phénomène produit des arêtes supplémentaires dans le réseau marginal entre les espèces liées à l'acteur manquant dans le réseau complet, ce qui fausse la suite des analyses. Le second objectif de ce travail est de prendre en compte les acteurs manquants lors de l'inférence de réseau. Les paramètres du modèle proposé sont estimés par une approche variationnelle, qui fournit des éléments d'information pertinents à propos des données non observées.
Fichier principal
Vignette du fichier
92354_MOMAL_2020_archivage.pdf (10.01 Mo) Télécharger le fichier
Origine : Version validée par le jury (STAR)

Dates et versions

tel-03098468 , version 1 (05-01-2021)

Identifiants

  • HAL Id : tel-03098468 , version 1

Citer

Raphaëlle Momal. Network inference from incomplete abundance data. Statistics [math.ST]. Université Paris-Saclay, 2020. English. ⟨NNT : 2020UPASM017⟩. ⟨tel-03098468⟩
164 Consultations
127 Téléchargements

Partager

Gmail Facebook X LinkedIn More