Production of categorical data verifying differential privacy : conception and applications to machine learning - TEL - Thèses en ligne Accéder directement au contenu
Thèse Année : 2022

Production of categorical data verifying differential privacy : conception and applications to machine learning

Production de données catégorielles respectant la confidentialité différentielle : conception et applications au apprentissage automatique

Résumé

Private and public organizations regularly collect and analyze digitalized data about their associates, volunteers, clients, etc. However, because most personal data are sensitive, there is a key challenge in designing privacy-preserving systems to comply with data privacy laws, e.g., the General Data Protection Regulation. Differential privacy (DP) is a formal definition that allows quantifying the privacy-utility trade-off. With the local DP (LDP) model, users can sanitize their data locally before transmitting it to the server.The objective of this thesis is thus two-fold: O1) To improve the utility and privacy of LDP protocols for frequency estimation, which is fundamental to statistical learning. And O2) To propose privacy-preserving systems for data mining tasks with DP guarantees.For O1, we first tackled the problem from two multiple perspectives, i.e., multiple attributes and multiple collections throughout time (longitudinal studies), while focusing on utility. Secondly, we focused our attention on the multiple attributes aspect only, in which we proposed a solution focusing on privacy while preserving utility. In both cases, we demonstrate through analytical and experimental validations the advantages of our proposed solutions over state-of-the-art protocols.For O2, we proposed systems based on machine learning (ML) to solve real-world problems while ensuring DP guarantees. Indeed, we mainly used the input data perturbation setting from the privacy-preserving data mining literature. This is the situation in which the whole dataset is perturbed independently and, thus, we implemented LDP algorithms from the perspective of the centralized data owner. In all cases, we concluded that differentially private ML models achieve nearly the same performance as non-private ones.
Les organisations privées et publiques collectent et analysent régulièrement des données numérisées sur leurs associés, volontaires, clients, etc. Cependant, comme la plupart des données personnelles sont sensibles, la conception de systèmes préservant la vie privée pour se conformer aux lois sur la confidentialité des données, par exemple le règlement général sur la protection des données, constitue un défi majeur. La confidentialité différentielle (DP) est une définition formelle qui permet de quantifier le compromis entre confidentialité et utilité. Avec le modèle de DP local (LDP), les utilisateurs peuvent sanitizer leurs données localement avant de les transmettre au serveur.L'objectif de cette thèse est donc double : O1) Améliorer l'utilité et la confidentialité des protocoles LDP pour l'estimation de fréquence, qui est fondamentale pour l'apprentissage statistique. Et O2) Proposer des systèmes préservant la vie privée pour les tâches de data mining avec des garanties DP.Pour O1, nous avons d'abord abordé le problème sous deux angles multiples, à savoir de multiples attributs et de multiples collections dans le temps (études longitudinales), tout en nous concentrant sur l'utilité. Ensuite, nous avons concentré notre attention sur l'aspect des attributs multiples uniquement, dans lequel nous avons proposé une solution axée sur la confidentialité tout en préservant l'utilité. Dans les deux cas, nous démontrons par des validations analytiques et expérimentales les avantages de nos solutions proposées par rapport aux protocoles de l'état de l'art.Pour O2, nous avons proposé des systèmes basés sur l'apprentissage automatique (ML) pour résoudre des problèmes du monde réel tout en assurant des garanties de DP. En effet, nous avons principalement utilisé le paramètre de perturbation des données d'entrée de la littérature sur l'exploration de données préservant la confidentialité. Il s'agit de la situation dans laquelle l'ensemble des données est perturbé indépendamment et, dès lors, nous avons mis en œuvre des algorithmes LDP du point de vue du propriétaire centralisé des données. Dans tous les cas, nous avons conclu que les modèles ML différentiellement privés atteignent presque les mêmes performances que les modèles non privés.
Fichier principal
Vignette du fichier
these_A_HWANGARCOLEZI_Heber_2022.pdf (7.29 Mo) Télécharger le fichier
Origine : Version validée par le jury (STAR)

Dates et versions

tel-03851305 , version 1 (14-11-2022)

Identifiants

  • HAL Id : tel-03851305 , version 1

Citer

Héber Hwang Arcolezi. Production of categorical data verifying differential privacy : conception and applications to machine learning. Artificial Intelligence [cs.AI]. Université Bourgogne Franche-Comté, 2022. English. ⟨NNT : 2022UBFCD004⟩. ⟨tel-03851305⟩
77 Consultations
53 Téléchargements

Partager

Gmail Facebook X LinkedIn More