Algorithms and techniques for bot detection in social networks - TEL - Thèses en ligne Accéder directement au contenu
Thèse Année : 2021

Algorithms and techniques for bot detection in social networks

Algorithmes et techniques de detection des bots dans les réseaux sociaux

Résumé

In this thesis, we propose machine learning techniques to detecting and characterizing malicious bots in social networks. The novelty of these techniques is that only interaction patterns of friends' of analysed accounts are used as the source data to detect bots. The proposed techniques have a number of novel advantages. There is no need to download a large amount of text and media data, which are highly language-dependent. Furthermore, it allows one to detect bots that are hidden by privacy settings or blocked, to detect cam- ouflages bots that mimic real people, to detect a group of bots, and to estimate quality and price of a bot. In the developed solution, we propose to extract the input data for the analysis in form of a social graphs, using a hierarchical social network model. After, to construct features from this graph we use statistical methods, graph algorithms, and methods that analyze graph embedding. And finally, we make a decision using a random forest model or a neural network. Based on this schema we propose 4 techniques, that allows one to perform the full cycle attack detection pipeline - 2 techniques for bot detection: individual bot detection, and group bot detection; and 2 techniques for characterization of bots: estimation of bot quality, and estimation of bot price. The thesis also presents experiments that evaluate the proposed solutions on the example of bot detection in VKontakte social network. For this, we developed the software prototype that implements the entire chain of analysis - from data collection to decision making. And in order to train the models, we collected the data about bots with different quality, price and camouflage strategies directly from the bot sellers. The study showed that using only information about the graphs of friends it is possible to recognize and characterize bots with high efficiency (AUC - ROC ˜ 0.9). At the same time, the proposed solution is quite resistant to the emergence of new types of bots, and to bots of various types - from automatically generated and hacked accounts to users that perform malicious activity for money.
Dans cette thèse nous proposons des techniques d'apprentissage automatique ayant comme but la détection et caractérisation des bots malveillants dans les réseaux sociaux. Une nouveauté de ces méthodes est qu'uniquement des motifs d'interaction avec des " amis " des comptes analysés sont utilisés comme source de données pour la détection des bots. Les techniques proposées ont plusieurs nouveaux avantages. Il n'y a plus de nécessité de télécharger des gros volumes de données textuelles et médiatiques, qui dépendent fortement du langage. Cela permet aussi détecter des bots cachés par des paramètres de confidentialité ou bloqués, des bots camouflés imitant des personnes réelles, les groupes de bots, et estimer la qualité et le prix d'un bot. Dans une solution que nous avons développée, nous proposons extraire des données pour l'analyse sous la forme des graphes sociaux, utilisant un modèle de réseau social hiérarchisé. Après, afin de déterminer des paramètres, nous utilisons les méthodes statistiques, algorithmes de graphes, et les méthodes nous permettant d'analyser le plongement de graphe. La décision finale est prise utilisant le modèle de foret aléatoire ou le réseau de neurones. A la base de ce schéma, nous proposons 4 techniques nous permettant de réaliser le cycle complet de détection des attaques - 2 techniques de détection des bots (détection individuelle et détection de groupe); et 2 techniques pour les caractériser - l'estimation de qualité et l'estimation de prix. La thèse aussi présente des expériences permettant à évaluer les solutions proposées. Comme exemple le réseau social VKontacte a été choisi. A ce but, nous avons développé le logiciel prototype qui peut effectuer toute la chaine d'analyse, de collection des données à la prise de décision. Et afin d'entrainer nos modèles, nous avons obtenu directement de vendeurs les données concernant les bots de qualité, prix et stratégies de camouflage différentes. L'étude a montré qu'en utilisant uniquement l'information concernant les graphes des amis il est possible de reconnaitre et caractériser les bots très efficacement (AUC-ROC ~ 0.9). En même temps, la solution proposée est robuste par rapport à l'émergence de nouveaux types des bots, et au changement de leur type - de bots générés automatiquement et comptes piratés jusqu'aux utilisateurs humaines qui se chargent de l'activité malveillante contre une rémunération.
Fichier principal
Vignette du fichier
2021TOU30097a.pdf (13.3 Mo) Télécharger le fichier
Origine : Version validée par le jury (STAR)

Dates et versions

tel-03560882 , version 1 (07-02-2022)

Identifiants

  • HAL Id : tel-03560882 , version 1

Citer

Maksim Kalameyets. Algorithms and techniques for bot detection in social networks. Library and information sciences. Université Paul Sabatier - Toulouse III; ITMO University, 2021. English. ⟨NNT : 2021TOU30097⟩. ⟨tel-03560882⟩
460 Consultations
798 Téléchargements

Partager

Gmail Facebook X LinkedIn More