Designing and evaluating anonymization techniques for images and relational data streams via Machine Learning approaches at BMW Group - TEL - Thèses en ligne Accéder directement au contenu
Thèse Année : 2021

Designing and evaluating anonymization techniques for images and relational data streams via Machine Learning approaches at BMW Group

Conception et évaluation de techniques d'anonymisation des images et des flux de données relationnels via des approches d'apprentissage automatique à BMW Group

Résumé

Individual’s privacy and anonymity is becoming highly critical in our data-driven world due to the vast amount of data being generated and processed daily (e.g., Industry 4.0). Data anonymization is the process of creating anonymous information, namely information which does not relate to an identified or identifiable natural person in such a manner that the data subject is not or no longer identifiable. Privacy regulations compel data-driven companies to guarantee a level of anonymization that requires “irreversibility preventing identification of the data subject”, taking into account all the means “reasonably likely to be used” for identification. Therefore, we (i) propose and implement several anonymization techniques and tools in the context of images and relational data streams and (ii) assess the robustness of these techniques by simulating adversaries with different knowledge and several attacking capabilities. In the first contribution, we design and implement an anonymization tool that localizes identifying/sensitive features in images/videos via Deep Learning DL-based localization techniques (i.e., semantic segmentation) and obfuscates it accordingly via pixelating, blurring, or masking. In the second contribution, we propose a recommendation framework that evaluates the robustness of image obfuscation techniques and recommends the most resilient obfuscation against adversaries executing DL-assisted attacks (e.g., restoration or recognition-based attacks). In addition, three threat levels are studied thoroughly based on the adversary’s knowledge (e.g., background knowledge). In the third contribution, we empirically demonstrate how adversaries can remedy their lack of knowledge and leverage their attacking capabilities, against obfuscated facial images, by collaborating via Federated Learning. Seven collective threat levels are defined and studied based on the background knowledge of the adversaries and the sharing of their knowledge. Finally, we address in the fourth contribution the correlation problem in the anonymization of a transactional relational data stream. A bucketization-based technique, entitled (k,l)-clustering, is proposed to prevent such privacy breaches by ensuring that the same k individuals remain grouped together over the entire anonymized stream.
La protection des données à caractère personnel est essentielle et vitale dans notre monde axé sur les donnes (e.g. industrie 4.0). L’anonymisation est un processus qui modifie les données de telle manière que la personne concernée ne soit pas ou plus identifiable. Les réglementations de protection des données obligent souvent les entreprises qui utilisent des données de garantir un niveau d'anonymisation qui exige "l'irréversibilité empêchant la ré-identification de la personne concernée", en tenant compte de tous les moyens "raisonnablement susceptibles d'être utilisés" pour l'identification. Par conséquent, nous (i) proposons et implémentons plusieurs techniques et outils d'anonymisation dans le contexte des images et des flux de données relationnels et (ii) évaluons la robustesse de ces techniques en simulant des adversaires avec plusieurs capacités d'attaque. Dans la première contribution, nous concevons et implémentons un outil d'anonymisation qui localise les caractéristiques personnelles (c'est-à-dire, identifiantes) dans les images/vidéos par des techniques de localisation basées sur des approches de « Deep Learning DL » (par exemple, la détection des objets ou la segmentation sémantique des pixels) et applique des techniques d’obfuscation par pixellisation, « blurring » ou masquage. Dans la deuxième contribution, nous proposons un « Framework » qui évalue la robustesse des techniques d’anonymisation des images et recommande la technique la plus résiliente contre des adversaires qui exécutent des attaques assistées par DL (par exemple, des attaques qui reconstruisent/reconnaissent les pixels anonymes). En outre, nous étudions trois niveaux d’attaque dont chacun dépend des connaissances « knowledge » de l'adversaire à propos des images anonymisés. Dans la troisième contribution, nous démontrons d’une manière empirique comment les adversaires peuvent remédier à leur manque de connaissances et améliorer leurs capacités d'attaque, contre des images anonymisés, en collaborant via « Federated Learning ». Nous définissons sept niveaux d’attaque collective en fonction des connaissances des adversaires et du partage de leurs connaissances. Dans la quatrième contribution, nous considérons le problème de corrélation dans le contexte d'anonymisation d'un flux de données relationnelles transactionnelles. Nous proposons une technique, intitulée (k,l)-clustering, qui garantit l’anonymité de flux de données relationnel en toujours groupant les tuples des mêmes k individus ensemble tout au long du flux.
Fichier principal
Vignette du fichier
these_A_TEKLI_Jimmy_2021.pdf (16.86 Mo) Télécharger le fichier
Origine : Version validée par le jury (STAR)

Dates et versions

tel-04349536 , version 1 (18-12-2023)

Identifiants

  • HAL Id : tel-04349536 , version 1

Citer

Jimmy Tekli. Designing and evaluating anonymization techniques for images and relational data streams via Machine Learning approaches at BMW Group. Cryptography and Security [cs.CR]. Université Bourgogne Franche-Comté, 2021. English. ⟨NNT : 2021UBFCD051⟩. ⟨tel-04349536⟩
82 Consultations
30 Téléchargements

Partager

Gmail Facebook X LinkedIn More