Anonymisation de documents cliniques : performances et limites des méthodes symboliques et par apprentissage statistique

Résumé : Ce travail porte sur l'anonymisation automatique de comptes rendus cliniques. L'anonymisation consiste à masquer les informations personnelles présentes dans les documents tout en préservant les informations cliniques. Cette étape est obligatoire pour utiliser des documents cliniques en dehors du parcours de soins, qu'il s'agisse de publication de cas d'étude ou en recherche scientifique (mise au point d'outils informatiques de traitement du contenu des dossiers, recherche de cas similaire, etc.). Nous avons défini douze catégories d'informations à traiter : nominatives (noms, prénoms, etc.) et numériques (âges, dates, codes postaux, etc.). Deux approches ont été utilisées pour anonymiser les documents, l'une dite " symbolique ", à base de connaissances d'expert formalisées par des expressions régulières et la projection de lexiques, l'autre par apprentissage statistique au moyen de CRF de chaîne linéaire. Plusieurs expériences ont été menées parmi lesquelles l'utilisation simple ou enchaînée de chacune des deux approches. Nous obtenons nos meilleurs résultats (F-mesure globale=0,922) en enchaînant les deux méthodes avec rassemblement des noms et prénoms en une seule catégorie (pour cette catégorie : rappel=0,953 et F-mesure=0,931). Ce travail de thèse s'accompagne de la production de plusieurs ressources : un guide d'annotation, un corpus de référence de 562 documents dont 100 annotés en double avec adjudication et calculs de taux d'accord inter-annotateurs (K=0,807 avant fusion) et un corpus anonymisé de 17000 comptes rendus cliniques.
Type de document :
Thèse
Bio-informatique [q-bio.QM]. Université Pierre et Marie Curie - Paris VI, 2013. Français
Liste complète des métadonnées

Littérature citée [113 références]  Voir  Masquer  Télécharger

https://tel.archives-ouvertes.fr/tel-00848672
Contributeur : Cyril Grouin <>
Soumis le : samedi 27 juillet 2013 - 10:34:39
Dernière modification le : mardi 12 février 2019 - 01:30:00
Document(s) archivé(s) le : lundi 28 octobre 2013 - 02:40:12

Identifiants

  • HAL Id : tel-00848672, version 1

Citation

Cyril Grouin. Anonymisation de documents cliniques : performances et limites des méthodes symboliques et par apprentissage statistique. Bio-informatique [q-bio.QM]. Université Pierre et Marie Curie - Paris VI, 2013. Français. 〈tel-00848672〉

Partager

Métriques

Consultations de la notice

946

Téléchargements de fichiers

2959