Skip to Main content Skip to Navigation
Theses

Anonymisation de documents cliniques : performances et limites des méthodes symboliques et par apprentissage statistique

Résumé : Ce travail porte sur l'anonymisation automatique de comptes rendus cliniques. L'anonymisation consiste à masquer les informations personnelles présentes dans les documents tout en préservant les informations cliniques. Cette étape est obligatoire pour utiliser des documents cliniques en dehors du parcours de soins, qu'il s'agisse de publication de cas d'étude ou en recherche scientifique (mise au point d'outils informatiques de traitement du contenu des dossiers, recherche de cas similaire, etc.). Nous avons défini douze catégories d'informations à traiter : nominatives (noms, prénoms, etc.) et numériques (âges, dates, codes postaux, etc.). Deux approches ont été utilisées pour anonymiser les documents, l'une dite " symbolique ", à base de connaissances d'expert formalisées par des expressions régulières et la projection de lexiques, l'autre par apprentissage statistique au moyen de CRF de chaîne linéaire. Plusieurs expériences ont été menées parmi lesquelles l'utilisation simple ou enchaînée de chacune des deux approches. Nous obtenons nos meilleurs résultats (F-mesure globale=0,922) en enchaînant les deux méthodes avec rassemblement des noms et prénoms en une seule catégorie (pour cette catégorie : rappel=0,953 et F-mesure=0,931). Ce travail de thèse s'accompagne de la production de plusieurs ressources : un guide d'annotation, un corpus de référence de 562 documents dont 100 annotés en double avec adjudication et calculs de taux d'accord inter-annotateurs (K=0,807 avant fusion) et un corpus anonymisé de 17000 comptes rendus cliniques.
Complete list of metadatas

Cited literature [113 references]  Display  Hide  Download

https://tel.archives-ouvertes.fr/tel-00848672
Contributor : Cyril Grouin <>
Submitted on : Saturday, July 27, 2013 - 10:34:39 AM
Last modification on : Wednesday, June 24, 2020 - 2:30:05 PM
Document(s) archivé(s) le : Monday, October 28, 2013 - 2:40:12 AM

Identifiers

  • HAL Id : tel-00848672, version 1

Citation

Cyril Grouin. Anonymisation de documents cliniques : performances et limites des méthodes symboliques et par apprentissage statistique. Bio-informatique [q-bio.QM]. Université Pierre et Marie Curie - Paris VI, 2013. Français. ⟨tel-00848672⟩

Share

Metrics

Record views

1128

Files downloads

4307