Dé-identification des comptes rendus médicaux pour les tâches d'apprentissage automatique : application à l'association des codes CIM-10 - TEL - Thèses en ligne Accéder directement au contenu
Thèse Année : 2023

De-identification of medical reports for machine learning tasks : application to ICD-10 code association

Dé-identification des comptes rendus médicaux pour les tâches d'apprentissage automatique : application à l'association des codes CIM-10

Résumé

Medical research plays a crucial role within scientific research. Technological advancements, especially those related to the rise of machine learning, pave the way for exploring medical issues that were once beyond reach. Unstructured textual data, such as correspondence between doctors, operative reports, etc., often serves as a starting point for many medical applications. The information contained in these data enables medical analyses to enhance patient care, facilitate the study of pathologies, and more.However, for obvious privacy reasons, researchers do not legally have the right to access these documents as long as they contain sensitive data, as defined by regulations like GDPR. De-identification, meaning the detection and removal of all sensitive information, is therefore a necessary step to facilitate the sharing of this data between the medical field and research. Over the last decade, various approaches have been proposed to de-identify medical textual data. However, while entity detection is a well-known task in the natural language processing field, it presents some specific challenges in the medical context. Moreover, existing substitution methods proposed in the literature often pay little attention to the medical relevance of de-identified data or are not very resilient to attacks.The objective of this thesis is threefold: Firstly, implementing an efficient system for detecting sensitive entities in medical data to subsequently substitute them accurately. Secondly, to propose strategies for generating substitutes that incorporate the medical utility of the data, thereby minimizing the utility difference between the original and de-identified data, and that mathematically ensure privacy protection. And Finally, to evaluate the utility of the de-identification system in a context of application related to medical issues.
La recherche médicale occupe une place primordiale au sein de la recherche scientifique. Les avancées technologiques, particulièrement liées à l'avènement de l'apprentissage automatique, ouvrent la voie à l'exploration de problématiques médicales qui étaient autrefois hors de portée. Les données textuelles non structurées, telles que les lettres de liaison entre les médecins, les rapports opératoires, etc., servent souvent de point de départ pour de nombreuses applications médicales. Les informations contenues dans ces données permettent des analyses médicales afin d'améliorer la prise en charge, de faciliter l'étude des pathologies, etc.Cependant, pour des raisons évidentes de protection de la vie privée, les chercheurs n'ont pas légalement le droit d'accéder à ces documents tant qu'ils contiennent des données sensibles, telles que définies par les législations telles que le RGPD. La dé-identification, c'est-à-dire la détection et la suppression de toutes les informations sensibles, est donc une étape nécessaire pour faciliter le partage de ces données entre le domaine médical et celui de la recherche. Au cours de la dernière décennie, plusieurs démarches ont été proposées pour dé-identifier des données textuelles médicales. Cependant, bien que la détection des entités soit une tâche bien connue dans le domaine du traitement automatique du langage naturel, elle présente quelques défis particuliers dans le contexte médical. De plus, les méthodes de substitution existantes proposées dans la littérature accordent souvent peu d'importance à la pertinence médicale des données dé-identifiées ou ne sont pas très résistantes aux attaques.L'objectif de cette thèse est donc triple : Tout d'abord, mettre en place un système efficace de détection des entités sensibles dans les données médicales pour permettre ensuite de correctement les substituer. Ensuite, proposer des stratégies de génération de substituts qui intègrent l'utilité médicale des données, minimisant ainsi la différence d'utilité entre les données originales et les données dé-identifiées et qui garantissent mathématiquement une protection de la vie privée. Enfin, évaluer l'utilité du système de dé-identification dans un contexte d'application lié aux problématiques médicales.
Fichier principal
Vignette du fichier
these_A_TCHOUKA_Yakini_2023.pdf (1.94 Mo) Télécharger le fichier
Origine : Version validée par le jury (STAR)

Dates et versions

tel-04573952 , version 1 (13-05-2024)

Identifiants

  • HAL Id : tel-04573952 , version 1

Citer

Yakini Tchouka. Dé-identification des comptes rendus médicaux pour les tâches d'apprentissage automatique : application à l'association des codes CIM-10. Intelligence artificielle [cs.AI]. Université Bourgogne Franche-Comté, 2023. Français. ⟨NNT : 2023UBFCD058⟩. ⟨tel-04573952⟩
0 Consultations
0 Téléchargements

Partager

Gmail Facebook X LinkedIn More