Publication de données individuelles respectueuse de la vie privée : une démarche fondée sur le co-clustering

Abstract : Il y a une forte demande économique et citoyenne pour l’ouverture des données individuelles. Cependant, la publication de telles données représente un risque pour les individus qui y sont représentés. Cette thèse s’intéresse à la problématique de l’anonymisation de tables de données multidimensionnelles contenant des données individuelles dans un objectif de publication. On se concentrera plus particulièrement sur deux familles d’approches pour l’anonymisation: la première vise à fondre chaque individu dans un groupe d’individus, la deuxième est basée sur l’ajout d’un bruit perturbateur aux données originales. Deux nouvelles approches sont développées dans le cadre de l’anonymisation par groupe, elles consistent à agréger les données à l’aide d’une technique de co- clustering puis à utiliser le modèle produit, pour générer des enregistrements synthétiques, dans le cas de la première solution. La deuxième proposition quant à elle, cherche à atteindre le formalisme du k-anonymat. Enfin, nous présentons DPCocGen un nouvel algorithme d’anonymisation respectueux de la confidentialité différentielle. Tout d'abord, un partitionnement sur les domaines est utilisé pour générer un histogramme multidimensionnel bruité, un co-clustering multidimensionnel est ensuite effectué sur l'histogramme bruité résultant en un schéma de partitionnement. Enfin, le schéma obtenu est utilisé pour partitionner les données originales de manière différentiellement privée. Des individus synthétiques peuvent alors être tirés des partitions.
Complete list of metadatas

Cited literature [146 references]  Display  Hide  Download

https://tel.archives-ouvertes.fr/tel-02053043
Contributor : Marc Gelgon <>
Submitted on : Thursday, February 28, 2019 - 10:05:33 PM
Last modification on : Friday, May 17, 2019 - 11:37:41 AM
Long-term archiving on: Wednesday, May 29, 2019 - 5:33:08 PM

File

these_Tarek_Benkhelif.pdf
Files produced by the author(s)

Identifiers

  • HAL Id : tel-02053043, version 1

Collections

Citation

Tarek Benkhelif. Publication de données individuelles respectueuse de la vie privée : une démarche fondée sur le co-clustering. Cryptographie et sécurité [cs.CR]. Université de Nantes, 2018. Français. ⟨tel-02053043⟩

Share

Metrics

Record views

88

Files downloads

102