Profiling and Visualizing Android Malware Datasets - TEL - Thèses en ligne Accéder directement au contenu
Thèse Année : 2022

Profiling and Visualizing Android Malware Datasets

Profilage et Visualisation de Datasets d’Applications Android Malveillantes

Résumé

Mobile devices are ubiquitous: nowadays most people own a mobile telephone.Because of this, it is a target of interest for attackers.Researchers in malware analysis put their effort to recognize these types of programs before they are installed on a user device.To do this, they perform experiments to automatically detect malware, for example with machine learning, where they use sets of already known malware and goodware.Depending on their choice of datasets, the evaluation of the experiments can yield acceptable results, or outstanding but overestimated results.Consequently, datasets with malware and benign samples are important elements to consider when designing an experiment.This thesis presents, first, a method to evaluate the quality of datasets based on a statistical test that helps to compare a crafted dataset against a large set of applications such as markets.We show that historical datasets of the literature are of low quality, which justifies the need to create new up-to-date datasets.Second, we introduce an algorithm to update mixed datasets of malware/goodware of low quality in order to resemble a target dataset that cannot be used directly, \eg a market.We evaluate the updated mixed datasets using a machine learning algorithm and we show that the detection of malware in our up-to-date dataset becomes a more difficult problem to solve.Lastly, we introduce DaViz, a dataset visualization tool for exploring and comparing Android malware datasets, which enables researchers to visualize the biases in datasets of the literature, and obtain useful information from them.
Les dispositifs mobiles sont ubiquitaires: aujourd’hui la majorité des gens possèdent un téléphone mobile. A cause de ce fait, ces dispositifs sont une cible d’intérêt pour les attaquants. Ces attaques sont véhiculées au travers des applications malveillantes qui peuvent nuire aux dispositifs mobiles. Les chercheurs en analyse de malware travaillent à reconnaître ces types de programmes avant qu’ils soient installés sur un dispositif utilisateur. Pour faire cela, ils réalisent des expériences pour automatiquement détecter ces malware, où ils utilisent des ensembles de malware et des applications bénignes déjà connues. Selon le dataset choisi, les résultats des expériences peuvent être acceptables ou bien exceptionnellement bons parce que surestimés. Par conséquent, les datasets de malware et applications bénignes sont des éléments importants à considérer quand nous élaborons une expérience. Cette thèse présente, premièrement, une méthode pour évaluer la qualité des datasets basée sur un test statistique qui aide à comparer un dataset créé avec un grand ensemble d’applications par exemple issu d’un magasin d’applications. Nous montrons alors que les datasets historiques de la littérature sont de mauvaise qualité, ce qui justifie le besoin de créer des nouveaux datasets plus à jour. Deuxièmement, nous introduisons un algorithme pour mettre à jour des datasets mixtes de malware/goodware de mauvaise qualité afin de ressembler à un dataset cible qui ne peut pas être utilisé directement, e.g. un magasin d’applications. Nous évaluons les datasets mixtes mis à jour en utilisant un algorithme d’apprentissage automatique et nous montrons que la détection de malware sur notre dataset mis à jour devient un problème plus difficile à résoudre. Enfin, nous introduisons DaViz, un outil de visualisation de datasets pour explorer et comparer des datasets d’applications Android. Cet outil permet aux chercheurs de visualiser les biais dans les datasets de la littérature, et d’obtenir des informations utiles à leur propos.
Fichier principal
Vignette du fichier
2022CSUP0005_CONCEPCION_MIRANDA_archivage.pdf (5.19 Mo) Télécharger le fichier
Origine : Version validée par le jury (STAR)

Dates et versions

tel-04003806 , version 1 (24-02-2023)

Identifiants

  • HAL Id : tel-04003806 , version 1

Citer

Tomas Javier Concepcion Miranda. Profiling and Visualizing Android Malware Datasets. Cryptography and Security [cs.CR]. CentraleSupélec, 2022. English. ⟨NNT : 2022CSUP0005⟩. ⟨tel-04003806⟩
106 Consultations
89 Téléchargements

Partager

Gmail Facebook X LinkedIn More