Anti-Abuse Protection of Online Social Networks using Machine Learning - TEL - Thèses en ligne Accéder directement au contenu
Thèse Année : 2020

Anti-Abuse Protection of Online Social Networks using Machine Learning

Protection Anti-Abus de Réseaux Sociaux Numériques par Apprentissage Statistique.

Résumé

Over the last decade, the growing popularity of Online Social Networks has attracted a pervasive presence of social spammers. While this presence has started with spam advertising and common scams, the recent years have seen this escalate to the far more concerning mass manipulation attempts. This targeted and largely automated abuse of social platforms is risking the credibility and usefulness of the information disseminated on these platforms. The social spam detection problem has been traditionally modeled as a supervised problem where the goal is to classify individual social accounts. This common choice is problematic for two reasons. First, the dynamic and adversarial nature of social spam makes the performance achieved by features-based supervised systems hard to maintain. Second, features-based modeling of individual social accounts discards the collusive context in which social attacks are increasingly undertaken. Acting synchronously allows spammers to gain greater exposure and efficiently disseminate their content. Thus, even when spammers change their characteristics, they continue to act collusively, inevitably creating links between collusive spammingaccounts. This constitutes an unsupervised signal that is relatively easy to maintain and hard to evade. It is therefore beneficial to find a suitable similarity measure that captures this collusive behavior. Accordingly, we propose in this work to cast the social spam detection problem in probabilistic terms using the undirected graphical models framework. Instead of the individual detection paradigm that is commonly used in the literature, we aim to model the classi_cation task as one of joint inference. In this context, accounts are represented as random variables and the dependency between these variables is encoded in a graphical structure. This probabilistic setting allows to model theuncertainty that is inherent to classification systems while simultaneously leveraging the dependency that _ows from the similarity induced by the spammers collusive behavior. We propose two graphical models: the Markov Random Field with inference performed via Loopy Belief Propagation, and the Conditional Random Field with a setting that is more adapted to the classification problem, namely by adopting the Tree Reweighted message passing algorithm for inference and a loss that minimizes theempirical risk. Both models, evaluated on Twitter, demonstrate an increase in classification performance compared to state-of-the-art supervised classifiers. Compared to the Markov Random Field, the proposed Conditional Random Field framework offers a better classification performance and a higher robustness to changes in spammers input distribution.
Au cours de la dernière décennie, la popularité incomparable des réseaux sociaux numériques s’est traduite par l’omniprésence des spammeurs sur ces plateformes. Cette présence a commencé par se manifester sous la forme de messages de publicité et d’arnaques traditionnels simples à identifier. Pourtant, elle s’est métamorphosée durant les dernières années, et couvre dorénavant de larges tentatives de manipulation qui sont assez importantes et beaucoup plus préoccupantes. Cet abus ciblé et largement automatisé des réseaux sociaux numériques réduit la crédibilité et l’utilitédes informations diffusées sur ces plateformes. Le problème de détection du spam social a été traditionnellement modélisé comme un problème de classification supervisée où l’objectif est de classer les comptes sociaux individuellement. Ce choix est problématique pour deux raisons. Tout d’abord, la nature dynamique du spam social rend les performances des systèmes supervisés difficiles à maintenir. En outre, la modélisation basée sur les caractéristiques (features) des comptes sociaux individuels ne prend pas en compte le contexte collusoire dans lequel les attaques sur les réseaux sociaux sont menées. Pour maximiser leur efficacité et la visibilité de leur contenu, les spammeurs actent d’une manière qu’on peut décrire comme “synchronisée”. Ainsi, même lorsqueles spammeurs changent de caractéristiques, ils continuent à agir de manière collusoire, créant des liens entre les comptes complices. Ceci constitue un signal non supervisé qui est relativement facile à maintenir et difficile à contourner. Il est donc avantageux de trouver une mesure de similarité adaptée qui soit capable de capturer ce comportement collusoire. Dans ce travail, nous proposons d’exprimer le problème de détection de spam social en termes probabilistes en utilisant le cadre des modèles graphiques non dirigés. Au lieu du paradigme de détection individuelle qui est couramment utilisé dans la littérature, nous cherchons à modéliser la tâche de classification comme une tâche d’inférence sur la probabilité jointe d’un graphe de variables. Dans ce contexte, les comptes sont représentés comme des variables aléatoires et la dépendance entre ces variables est représentée par un graphe. Cette expression probabiliste permet de modéliser l’incertitude inhérente aux systèmes de classification. Le graphe permet aussi d’exploiter la dépendance qui découle de la similitude induite par le comportement collusoire des spammeurs. Nous proposons deux modèles graphiques: le Champs Aléatoire de Markov où l’inférence est effctuée par l’algorithme de Propagation des Convictions à Boucle, et le Champs Aléatoire Conditionnel, où on choisit d’utiliser l’algorithme du Tree Reweighted Message Passing pour l’inférence et une fonction de perte qui minimise le risque empirique. Les deux modèles, évalués sur Twitter, montrent une augmentation des performances de classification par rapport aux classifieurs supervisés de la littérature. Le Champ Aléatoire Conditionnel offre de meilleures performances de classification par rapport au Champs Aléatoire de Markov. Il est aussi plus robuste face aux changements dans la distribution des caractéristiques des spammeurs.
Fichier principal
Vignette du fichier
nourelmawass.pdf (4.27 Mo) Télécharger le fichier
Origine : Version validée par le jury (STAR)

Dates et versions

tel-03188653 , version 1 (02-04-2021)

Identifiants

  • HAL Id : tel-03188653 , version 1

Citer

Nour El-Mawass. Anti-Abuse Protection of Online Social Networks using Machine Learning. Artificial Intelligence [cs.AI]. Normandie Université, 2020. English. ⟨NNT : 2020NORMR094⟩. ⟨tel-03188653⟩
168 Consultations
322 Téléchargements

Partager

Gmail Facebook X LinkedIn More