Federated Learning of Biomedical Data in Multicentric Imaging Studies

Santiago Smith Silva Rincon

Résumé

In order to gather sufficient sample size and representativity of clinical populations, the multi-centric analysis paradigm is often adopted for statistical and machine learning studies of biomedical data, particularly in the field of neuroimaging. Conventional multi-centric analysis paradigms are based on meta-analysis and mega-analysis, often in conjunction with data harmonization, to account for systematic biases and improve the combined analysis of data from multiple sources. However, while meta-analyses are mainly suited for standard statistical testing only, mega-analyses require centralizing the data, which can undermine data privacy and security. Today, data protection regulations such as the General Data Protection Regulation (GDPR) and the California Consumer Privacy Act (CCPA) impose strict governance on sensitive patient information, significantly limiting researchers’ access to such data. Federated learning (FL) is an alternative paradigm to multi-centric studies enabling multiple parties to train a model collaboratively without sharing sensitive data. FL thus addresses data governance challenges while enhancing patients’ data privacy. However, to facilitate real-life applications of FL, a series of challenges must be addressed: i) heterogeneity and generalization due to differences in data distributions and discrepancies across different institutions which can result in biased models that do not generalize properly, ii) occasional requirements of considerable amounts of computational resources that hospitals or institutions may not have, limiting its practicality and, ii) a common framework and infrastructure to put in place real-life applications while fulfilling research and governance demands. This thesis aims to contribute to the evolving landscape of neuroimaging research by investigating the potential of FL to transform the way researchers collaborate and analyze data, ultimately paving the way for more efficient and effective advancements in neuroimaging. We start by addressing the issue of data heterogeneity in federated learning setups, by introducing two methods, namely "Fed-ComBat" and "federated mixed-effect modeling", which aim to perform data harmonization and modeling on heterogeneous data respectively. Secondly, we introduce a black-box optimization scheme for FL aiming to improve the optimization process in federated setups. This method is based on gradient-free optimization of a global model, through the collaborative iterative refinement of the cost function associated with the distributed optimization problem across clients. This approach aims to centralize computational costs and mitigate overfitting issues linked to gradient-descent-based approaches while enabling institutions and hospitals with limited computational resources to participate in federated learning setups while achieving accurate and generalizable models. Finally, to enable and empower real-life federated applications, we introduce Fed-BioMed as an open-source framework for federated learning in healthcare, aiming to fulfill the need for a common collaborative framework that is also compliant with privacy and ethical standards. Overall, this thesis comprises methodological and technical contributions that tackle the challenges of data heterogeneity, optimization, and infrastructure in federated learning setups for neuroimaging research, with the ultimate goal of facilitating more efficient and effective advancements in healthcare while preserving patient privacy and data governance.

Afin de rassembler une taille d’échantillon suffisante et une représentativité des populations cliniques, le paradigme de l’analyse multi-centrique est souvent adopté pour les études statistiques et d’apprentissage automatique des données biomédicales, en particulier dans le domaine de la neuroimagerie. Les paradigmes d’analyse multi-centrique conventionnels reposent sur la méta-analyse et la méganalyse, souvent conjointement avec l’harmonisation des données, pour tenir compte des biais systématiques et améliorer l’analyse combinée des données provenant de sources multiples. Cependant, alors que les méta-analyses sont principalement adaptées aux tests statistiques standard, les méga analyses nécessitent une centralisation des données, ce qui peut nuire à la confidentialité et à la sécurité des données. Aujourd’hui, les réglementations sur la protection des données telles que le Règlement Général sur la Protection des Données (RGPD) et la California Consumer Privacy Act (CCPA) imposent une gouvernance stricte sur les informations sensibles des patients, limitant considérablement l’accès des chercheurs à ces données. L’apprentissage fédéré (FL) est un paradigme alternatif aux études multi-centriques permettant à plusieurs parties de former un modèle en collaboration sans partager de données sensibles. Le FL répond ainsi aux défis de la gouvernance des données tout en améliorant la confidentialité des données des patients. Cependant, pour faciliter les applications réelles du FL, une série de défis doit être relevée : i) l’hétérogénéité et la généralisation en raison des différences dans les distributions de données et les écarts entre les différentes institutions qui peuvent entraîner des modèles biaisés qui ne se généralisent pas correctement, ii) les besoins occasionnels en ressources de calcul considérables que les hôpitaux ou les institutions peuvent ne pas avoir, limitant ainsi sa praticité et, ii) un cadre et une infrastructure communs pour mettre en place des applications réelles tout en répondant aux exigences de recherche et de gouvernance. Cette thèse vise à contribuer au paysage évolutif de la recherche en neuroimagerie en étudiant le potentiel du FL pour transformer la manière dont les chercheurs collaborent et analysent les données, ouvrant ainsi la voie à des avancées plus efficaces et efficientes en neuroimagerie. Nous commençons par aborder la question de l’hétérogénéité des données dans les configurations d’apprentissage fédéré, en introduisant deux méthodes, à savoir "Fed- ComBat" et "modélisation à effets mixtes fédérée", qui visent à réaliser respectivement l’harmonisation des données et la modélisation sur des données hétérogènes. Deuxièmement, nous introduisons un schéma d’optimisation boîte noire pour le FL visant à améliorer le processus d’optimisation dans les configurations fédérées. Cette méthode est basée sur l’optimisation sans gradient d’un modèle global, grâce à l’affinement itératif collaboratif de la fonction de coût associée au problème d’optimisation distribué entre les clients. Cette approche vise à centraliser les coûts de calcul et à atténuer les problèmes de surajustement liés aux approches basées sur la descente de gradient, tout en permettant aux institutions et aux hôpitaux disposant de ressources informatiques limitées de participer aux configurations d’apprentissage fédéré tout en obtenant des modèles précis et généralisables. Enfin, pour permettre et renforcer les applications fédérées dans la vie réelle, nous présentons Fed-BioMed, un cadre open source pour l’apprentissage fédéré dans le domaine de la santé, visant à répondre au besoin d’un cadre collaboratif commun qui est également conforme aux normes de confidentialité et d’éthique. Dans l’ensemble, cette thèse comprend des contributions méthodologiques et techniques qui abordent les défis de l’hétérogénéité des données, de l’optimisation et de l’infrastructure dans les configurations d’apprentissage fédéré pour la recherche en neuroimagerie, avec pour objectif ultime de faciliter des avancées plus efficaces et efficientes dans les soins de santé tout en préservant la confidentialité des patients et la gouvernance des données.

Federated Learning of Biomedical Data in Multicentric Imaging Studies

Apprentissage Fédéré de Données Biomédicales dans les Études d’Imagerie Multicentriques

Résumé

Mots clés

Domaines

Dates et versions

Licence

Identifiants

Citer

Exporter

Collections

Partager