Skip to Main content Skip to Navigation
Theses

Network and machine learning approaches to dengue omics data

Résumé : Les 20 dernières années ont vu l'émergence de technologies de mesure puissantes, permettant l'analyse omique de diverses maladies. Ils fournissent souvent des moyens non invasifs pour étudier l'étiologie des maladies complexes nouvellement émergentes, telles que l'infection de la dengue, transmise par les moustiques. Ma thèse se concentre sur l'adaptation et l'application d'approches utilisant des réseaux d'interaction de gènes et l'apprentissage automatique pour l'analyse de données génomiques et transcriptomiques. La première partie va au-delà d'une analyse pangénomique précédemment publiée de 4 026 personnes en appliquant une analyse de réseaux d'interaction pour trouver des groupes de gènes qui interagissent dans un réseau d'interactions fonctionnelles et qui, pris ensemble, sont associés à la dengue sévère. Dans cette partie, j'ai d'abord recalculé les valeurs-p d'association des polymorphismes séquencés, puis j'ai travaillé sur le mapping des polymorphismes à des gènes fonctionnellement apparentés, et j'ai enfin exploré différentes bases de données de voies métaboliques et d'interactions génétiques pour trouver des groupes de gènes qui, pris ensemble, sont associés à la dengue sévère. La deuxième partie de ma thèse dévoile une approche théorique pour étudier un biais dans les algorithmes de recherche de réseau actifs. Mon analyse théorique suggère que le meilleur score de sous-réseaux d'une taille donnée devrait être normalisé en fonction de la taille, selon l'hypothèse selon laquelle il s'agit d'un échantillon d'une distribution de valeur extrême, et non un échantillon de la distribution normale, comme c'est généralement le cas dans la littérature. Je propose alors une solution théorique à ce biais. La troisième partie présente un nouvel outil de recherche de sous-réseaux que j'ai co-conçu. Son modèle sous-jacent et l'algorithme évite le biais de taille trouvé dans les méthodes existantes et génère des résultats facilement compréhensibles. Je présente une application aux données transcriptomiques de la dengue. Dans la quatrième et dernière partie, je décris l'identification d'un biomarqueur qui détecte la sévérité de la dengue à l'arrivée à l'hôpital en utilisant une nouvelle approche d'apprentissage automatique. Cette approche combine la régression monotone bidimensionnelle avec la sélection des variables. Le modèle sous-jacent va au-delà des approches linéaires couramment utilisées, tout en permettant de contrôler le nombre de transcrits dans le biomarqueur. Le petit nombre de transcrits accompagné de leur représentation visuelle maximisent la compréhension et l'interprétation du biomarqueur par les professionnels de la biomédecine. Je présente un biomarqueur à 18 gènes qui permet de distinguer, à leur arrivée à l'hôpital, les patients qui vont développer des symptômes de dengue sévères de ceux qui auront une dengue non sévère. Ce biomarqueur a une performance prédictive élevée et robuste. La performance prédictive du biomarqueur a été confirmée sur deux ensembles de données qui ont tous deux utilisé différentes technologies transcriptomiques et différents sous-types de cellules sanguines.
Document type :
Theses
Complete list of metadatas

Cited literature [154 references]  Display  Hide  Download

https://tel.archives-ouvertes.fr/tel-02426271
Contributor : Abes Star :  Contact
Submitted on : Thursday, January 2, 2020 - 1:55:35 AM
Last modification on : Saturday, July 11, 2020 - 4:46:31 AM

File

va_Nikolayeva_Iryna.pdf
Version validated by the jury (STAR)

Identifiers

  • HAL Id : tel-02426271, version 1

Collections

Citation

Iryna Nikolayeva. Network and machine learning approaches to dengue omics data. Bioengineering. Université Sorbonne Paris Cité, 2017. English. ⟨NNT : 2017USPCB032⟩. ⟨tel-02426271⟩

Share

Metrics

Record views

218

Files downloads

191