Development of new statistical/ML methods for identifying multimodal factors related to the evolution of Multiple Sclerosis - TEL - Thèses en ligne Accéder directement au contenu
Thèse Année : 2023

Development of new statistical/ML methods for identifying multimodal factors related to the evolution of Multiple Sclerosis

Développement de méthodes statistiques/ML pour l'identification de biomarqueurs longitudinaux multimodaux. Application à la compréhension des mécanismes d'évolution de la sclérose en plaques

Résumé

Studying a given phenomenon under multiple views can reveal a more significant part of the mechanisms at stake rather than considering each view separately. In order to design a study under such a paradigm, measurements are usually acquired through different modalities resulting in multimodal/multiblock/multi-source data. One statistical framework suited explicitly for the joint analysis of such multi-source data is Regularized Generalized Canonical Correlation Analysis (RGCCA). RGCCA extracts canonical vectors and components that summarize the different views and their interactions. The contributions of this thesis are fourfold. (i) Improve and enrich the RGCCA R package to democratize its use. (ii) Extend the RGCCA framework to better handle tensor data by imposing a low-rank tensor factorization to the extracted canonical vectors. (iii) Propose and investigate simultaneous versions of RGCCA to get all canonical components at once. The proposed methods pave the way for new extensions of RGCCA. (iv) Use the developed tools and expertise to analyze multiple sclerosis and leukodystrophy data. A focus is made on identifying biomarkers differentiating between patients and healthy controls or between groups of patients.
L'étude d'un phénomène à travers plusieurs modalités peut permettre de mieux en comprendre les mécanismes sous-jacents par rapport à l'étude indépendante des différentes modalités. Dans l'optique d'une telle étude, les données sont souvent acquises par différentes sources, donnant lieu à des jeux de données multimodaux/multi-sources/multiblocs. Un cadre statistique explicitement adapté pour l'analyse jointe de données multi-sources est l'Analyse Canonique des Corrélations Généralisée Régularisée (RGCCA). RGCCA extrait des vecteurs et composantes canoniques qui résument les différentes modalités et leurs interactions.Les contributions de cette thèse sont de quatre ordres. (i) Améliorer et enrichir le package R pour RGCCA afin de démocratiser son usage. (ii) Etendre le cadre de RGCCA pour mieux prendre en compte les données tensorielles en imposant une décomposition tensorielle de rang faible aux vecteurs canoniques extraits par la méthode. (iii) Proposer et étudier des approches simultanées de RGCCA pour obtenir toutes les composantes canoniques d'un seul coup. Les méthodes proposées ouvrent la voie à de nouveaux développements de RGCCA. (iv) Utiliser les outils et l'expertise développés pour analyser des données sur la sclérose en plaques et la leucodystrophie. L'accent est mis sur l'identification de biomarqueurs permettant de différencier les patients des témoins sains ou de trouver des différences entre groupes de patients.
Fichier principal
Vignette du fichier
125449_GIRKA_2023_archivage.pdf (17.09 Mo) Télécharger le fichier
Origine : Version validée par le jury (STAR)

Dates et versions

tel-04438160 , version 1 (05-02-2024)

Identifiants

  • HAL Id : tel-04438160 , version 1

Citer

Fabien Girka. Development of new statistical/ML methods for identifying multimodal factors related to the evolution of Multiple Sclerosis. Signal and Image Processing. Université Paris-Saclay, 2023. English. ⟨NNT : 2023UPASG075⟩. ⟨tel-04438160⟩
56 Consultations
15 Téléchargements

Partager

Gmail Facebook X LinkedIn More