Contributions à la détection de marqueurs et à l'analyse de survie en oncologie - TEL - Thèses en ligne Accéder directement au contenu
Thèse Année : 2021

Contributions to marker detection and survival analysis in oncology

Contributions à la détection de marqueurs et à l'analyse de survie en oncologie

Résumé

Personalized medicine plays an important role in oncology, it enables to adapt treatments to the characteristics of patients. The use of gene expression data to characterize the patients raises new issues related to high-dimensional statistics. The objective of this thesis consists in studying and developing methods adapted to the high-dimension for marker detection and survival analysis in oncology. In the first part of this work, we are interested in marker detection with two different objectives. The first one consists in identifying the genes responsible of Clear Cell Renal Cell Carcinoma (ccRCC). First, we realize a differential analysis. Secondly, we couple a variable selection obtained from a differential analysis with a learning method. The second objective of this part consists in studying regularization and screening methods to underline the genes impacting the survival of patients. The stability of these methods is also studied with a similarity index. In the second part of this thesis, we are interested in predicting survival in high-dimension. We study the potential of neural networks in this context. We distinguish two strategies for neural networks: one based on the Cox model and another one based on a discrete-time model. As this last one is less studied, we focus on neural networks based on this strategy and we have adapted it to the high-dimensional setting. We present a comparison study to observe the impact of different models in survival analysis in the context of high-dimension. We create a simulation plan to make this comparison more relevant and the data are simulated with different survival models to have data of different complexity levels. We also study the effect of censorship and sparsity. The performances of these methods are evaluated with the Concordance index and the Integrated Brier Score on this simulated data and on real datasets.
La médecine personnalisée en oncologie permet d’adapter les traitements aux caractéristiques des patients. L’utilisation des données d’expression de gènes comme caractéristiques amène de nouvelles problématiques : la grande dimension. L’objectif de cette thèse est d’étudier et développer des méthodes adaptées à la grande dimension pour la détection de marqueurs et l’analyse de survie en oncologie. Dans une première partie de ce travail, nous nous intéressons à la détection de marqueurs en oncologie avec deux objectifs différents. Le premier objectif consiste à identifier les gènes signatures du cancer du rein à cellules claires (ccRCC). Nous réalisons, dans un premier temps, une analyse différentielle et nous couplons, par la suite, une sélection de variables issue de l’analyse différentielle avec une méthode d’apprentissage. Le second objectif de cette partie est d’étudier les méthodes de régularisation et de Screening pour mettre en évidence les gènes influençant la survie des patients. La stabilité de ces méthodes a également été étudiée à partir d’un indice de similarité. Dans la seconde partie de cette thèse, nous nous intéressons à la prédiction de la survie en grande dimension. Nous avons étudié l’apport des réseaux de neurones dans ce contexte. Ces méthodes ont été peu étudiées en analyse de survie en grande dimension. Nous comparons deux approches de réseaux de neurones : une basée sur le modèle de Cox et une autre basée sur un modèle à temps discret. Nous nous sommes concentrés sur celle-ci en l’adaptant à la grande dimension. Ensuite, une étude de comparaison est réalisée afin d’évaluer les performances de ces deux approches et la prédiction à partir du modèle de Cox avec une procédure d’estimation de type Lasso est prise comme référence. Un plan de simulation a été créé en prenant en compte différents modèles de survie pour générer des données avec différents niveaux de complexité. La sparsité et la censure sont également prises en compte. Les performances sont donc évaluées à partir de deux métriques différentes (C-index et IBS) sur ces données simulées et illustrées sur des jeux de données réelles.
Fichier principal
Vignette du fichier
2021UPAST005_SAUTREUIL_archivage.pdf (2.95 Mo) Télécharger le fichier
Origine : Version validée par le jury (STAR)

Dates et versions

tel-03278955 , version 1 (06-07-2021)

Identifiants

  • HAL Id : tel-03278955 , version 1

Citer

Mathilde Sautreuil. Contributions à la détection de marqueurs et à l'analyse de survie en oncologie. Machine Learning [stat.ML]. Université Paris-Saclay, 2021. Français. ⟨NNT : 2021UPAST005⟩. ⟨tel-03278955⟩
225 Consultations
277 Téléchargements

Partager

Gmail Facebook X LinkedIn More