Timely Classification of Encrypted or Protocol­-Obfuscated Internet Traffic Using Statistical Methods - TEL - Thèses en ligne Accéder directement au contenu
Thèse Année : 2023

Timely Classification of Encrypted or Protocol­-Obfuscated Internet Traffic Using Statistical Methods

Classification rapide de trafic internet chiffré ou obscurci par utilisation de méthodes statistiques

Vanice Canuto Cunha

Résumé

Internet traffic classification aims to identify the type of application or protocol that gene­rated a particular packet or stream of packets on the network. Through traffic classifi­cation, Internet Service Providers (ISPs), governments, and network administrators can access basic functions and several solutions, including network management, advanced network monitoring, network auditing, and anomaly detection. Traffic classification is essential as it ensures the Quality of Service (QoS) of the network, as well as allowing efficient resource planning. With the increase of encrypted or obfuscated protocol traffic on the Internet and multi­layer data encapsulation, some classical classification methods have lost interest from the scientific community. The limitations of traditional classification methods based on port numbers and payload inspection to classify encrypted or obfuscated Internet traffic have led to significant research efforts focused on Machine Learning (ML) based classification approaches using statistical features from the transport layer. In an attempt to increase classification performance, Machine Learning strategies have gained interest from the sci­entific community and have shown promise in the future of traffic classification, specially to recognize encrypted traffic. However, ML approach also has its own limitations, as some of these methods have a high computational resource consumption, which limits their application when classifying large traffic or real­time flows. Limitations of ML application have led to the investigation of alternative approaches, including feature­based procedures and statistical methods. In this sense, statistical analysis methods, such as distances and divergences, have been used to classify traffic in large flows and in real­time. The main objective of statistical distance is to differentiate flows and find a pattern in traffic characteristics through statistical properties, which enable classification. Diver­gences are functional expressions often related to information theory, which measure the degree of discrepancy between any two distributions. This thesis focuses on proposing a new methodological approach to classify encrypted or obfuscated Internet traffic based on statistical methods that enable the evaluation of network traffic classification performance, including the use of computational resources in terms of CPU and memory. A set of traffic classifiers based on Kullback­Leibler and Jensen­Shannon divergences, and Euclidean, Hellinger, Bhattacharyya, and Wootters dis­tances were proposed. The following are the four main contributions to the advancement of scientific knowledge reported in this thesis. First, an extensive literature review on the classification of encrypted and obfuscated Internet traffic was conducted. The results suggest that port­-based and payload­-based methods are becoming obsolete due to the increasing use of traffic encryption and multi­layer data encapsulation. ML­based methods are also becoming limited due to their com­putational complexity. As an alternative, Support Vector Machine (SVM), which is also an ML method, and the Kolmogorov­Smirnov and Chi­squared tests can be used as refe­rence for statistical classification. In parallel, the possibility of using statistical methods for Internet traffic classification has emerged in the literature, with the potential of good results in classification without the need of large computational resources. The potential statistical methods are Euclidean Distance, Hellinger Distance, Bhattacharyya Distance, Wootters Distance, as well as Kullback­Leibler (KL) and Jensen­Shannon divergences. Second, we present a proposal and implementation of a classifier based on SVM for P2P multimedia traffic, comparing the results with Kolmogorov­Smirnov (KS) and Chi­square tests. The results suggest that SVM classification with Linear kernel leads to a better clas­sification performance than KS and Chi­square tests, depending on the value assigned to the Self C parameter. The SVM method with Linear kernel and suitable values for the Self C parameter may be a good choice to identify encrypted P2P multimedia traffic on the Internet. Third, we present a proposal and implementation of two classifiers based on KL Diver­ gence and Euclidean Distance, which are compared to SVM with Linear kernel, configured with the standard Self C parameter, showing a reduced ability to classify flows based solely on packet sizes compared to KL and Euclidean Distance methods. KL and Eucli­dean methods were able to classify all tested applications, particularly streaming and P2P, where for almost all cases they efficiently identified them with high accuracy, with re­duced consumption of computational resources. Based on the obtained results, it can be concluded that KL and Euclidean Distance methods are an alternative to SVM, as these statistical approaches can operate in real­time and do not require retraining every time a new type of traffic emerges. Fourth, we present a proposal and implementation of a set of classifiers for encrypted Internet traffic, based on Jensen­Shannon Divergence and Hellinger, Bhattacharyya, and Wootters Distances, with their respective results compared to those obtained with metho­ds based on Euclidean Distance, KL, KS, and Chi­Square. Additionally, we present a com­parative qualitative analysis of the tested methods based on Kappa values and Receiver Operating Characteristic (ROC) curves. The results suggest average accuracy values above 90% for all statistical methods, classified as ”almost perfect reliability” in terms of Kappa values, with the exception of KS. This result indicates that these methods are viable op­tions to classify encrypted Internet traffic, especially Hellinger Distance, which showed the best Kappa values compared to other classifiers. We conclude that the considered statistical methods can be accurate and cost­effective in terms of computational resource consumption to classify network traffic. Our approach was based on the classification of Internet network traffic, focusing on sta­ tistical distances and divergences. We have shown that it is possible to classify and ob­tain good results with statistical methods, balancing classification performance and the use of computational resources in terms of CPU and memory. The validation of the pro­posal supports the argument of this thesis, which proposes the implementation of statis­tical methods as a viable alternative to Internet traffic classification compared to methods based on port numbers, payload inspection, and ML.
La classification du trafic Internet vise à identifier le type d'application ou de protocole qui a généré un paquet ou un flux de paquets particulier sur le réseau. Grâce à la classification du trafic, les fournisseurs d'accès Internet (FAI), les gouvernements et les administrateurs réseau peuvent accéder aux fonctions de base et à plusieurs solutions, notamment la gestion du réseau, la surveillance avancée du réseau, l'audit du réseau et la détection des anomalies. La classification du trafic est essentielle car elle garantit la qualité de service (QoS) du réseau, tout en permettant une planification efficace des ressources. Avec l’augmentation du trafic protocolaire crypté ou obscurci sur Internet et l’encapsulation de données multicouches, certaines méthodes de classification classiques ont perdu de leur intérêt auprès de la communauté scientifique. Les limites des méthodes de classification traditionnelles basées sur les numéros de port et l'inspection des charges utiles pour classer le trafic Internet crypté ou obscurci ont conduit à d'importants efforts de recherche axés sur les approches de classification basées sur l'apprentissage automatique (ML) utilisant des fonctionnalités statistiques de la couche de transport. Dans le but d'augmenter les performances de classification, les stratégies d'apprentissage automatique ont suscité l'intérêt de la communauté scientifique et se sont révélées prometteuses pour l'avenir de la classification du trafic, notamment pour reconnaître le trafic crypté. Cependant, l’approche ML a également ses propres limites, car certaines de ces méthodes consomment beaucoup de ressources de calcul, ce qui limite leur application lors de la classification d’un trafic important ou de flux en temps réel. Les limites de l’application du ML ont conduit à rechercher des approches alternatives, notamment des procédures basées sur des fonctionnalités et des méthodes statistiques. En ce sens, des méthodes d'analyse statistique, telles que les distances et les divergences, ont été utilisées pour classer le trafic en grands flux et en temps réel. L'objectif principal de la distance statistique est de différencier les flux et de trouver un modèle dans les caractéristiques du trafic grâce à des propriétés statistiques qui permettent une classification. Les divergences sont des expressions fonctionnelles souvent liées à la théorie de l'information, qui mesurent le degré de divergence entre deux distributions quelconques. Cette thèse se concentre sur la proposition d'une nouvelle approche méthodologique pour classer le trafic Internet crypté ou obscurci, basée sur des méthodes statistiques permettant d'évaluer les performances de classification du trafic réseau, y compris l'utilisation de ressources informatiques en termes de CPU et de mémoire. Un ensemble de classificateurs de trafic basés sur les divergences de KullbackLeibler et JensenShannon et les distances euclidiennes, Hellinger, Bhattacharyya et Wootters ont été proposés. Voici les quatre principales contributions à l’avancement des connaissances scientifiques rapportées dans cette thèse. Premièrement, une revue approfondie de la littérature sur la classification du trafic Internet crypté et obscurci a été réalisée. Les résultats suggèrent que les méthodes basées sur les ports et les charges utiles deviennent obsolètes en raison de l'utilisation croissante du cryptage du trafic et de l'encapsulation des données multicouches. Les méthodes basées sur le ML deviennent également limitées en raison de leur complexité informatique. Comme alternative, Support Vector Machine (SVM), qui est également une méthode ML, et les tests Kolmogorov-Smirnov et Chisquared peuvent être utilisés comme référence pour la classification statistique. En parallèle, la possibilité d'utiliser des méthodes statistiques pour la classification du trafic Internet est apparue dans la littérature, avec le potentiel d'obtenir de bons résultats en classification sans nécessiter de grandes ressources informatiques. Les méthodes statistiques potentielles sont la distance euclidienne, la distance de Hellinger, la distance de Bhattacharyya, la distance de Wootters, ainsi que les divergences de KullbackLeibler (KL) et de JensenShannon. Deuxièmement, nous présentons une proposition et la mise en œuvre d'un classificateur basé sur SVM pour le trafic multimédia P2P, en comparant les résultats avec KolmogorovSmirnov (KS) et Chisquare. essais. Les résultats suggèrent que la classification SVM avec noyau linéaire conduit à de meilleures performances de classification que les tests KS et Chicarré, en fonction de la valeur attribuée au paramètre Self C. La méthode SVM avec un noyau linéaire et des valeurs appropriées pour le paramètre Self C peut être un bon choix pour identifier le trafic multimédia P2P crypté sur Internet. Troisièmement, nous présentons une proposition et la mise en œuvre de deux classificateurs basés sur KL Divergence et Euclidian Distance, qui sont comparés à SVM avec un noyau linéaire, configuré avec le paramètre standard Self C, montrant une capacité réduite à classer les flux uniquement en fonction de la taille des paquets par rapport aux méthodes KL et Euclidian Distance. Les méthodes KL et euclidiennes ont pu classer toutes les applications testées, en particulier le streaming et le P2P, où, dans presque tous les cas, elles les ont identifiées efficacement avec une grande précision, avec une consommation réduite de ressources informatiques. Sur la base des résultats obtenus, on peut conclure que les méthodes KL et Euclidienne sont une alternative au SVM, car ces approches statistiques peuvent fonctionner en temps réel et ne nécessitent pas de ré-entrainement à chaque fois.
A classificação de tráfego Internet visa identificar o tipo de aplicação ou protocolo que gerou um determinado pacote ou fluxo de pacotes na rede. Através da classificação de tráfego, Fornecedores de Serviços de Internet (ISP), governos e administradores de rede podem ter acesso às funções básicas e várias soluções, incluindo gestão da rede, monitora­ mento avançado de rede, auditoria de rede e deteção de anomalias. Classificar o tráfego é essencial, pois assegura a Qualidade de Serviço (QoS) da rede, além de permitir planear com eficiência o uso de recursos. Com o aumento de tráfego cifrado ou protocolo ofuscado na Internet e do encapsulamento de dados multicamadas, alguns métodos clássicos da classificação perderam interesse de investigação da comunidade científica. As limitações dos métodos tradicionais da clas­ sificação com base no número da porta e na inspeção de carga útil payload para clas­ sificar o tráfego de Internet cifrado ou ofuscado levaram a esforços significativos de in­ vestigação com foco em abordagens da classificação baseadas em técnicas de Aprendiza­ gem Automática (ML) usando recursos estatísticos da camada de transporte. Na tentativa de aumentar o desempenho da classificação, as estratégias de Aprendizagem Automática ganharam o interesse da comunidade científica e se mostraram promissoras no futuro da classificação de tráfego, principalmente no reconhecimento de tráfego cifrado. No entanto, a abordagem em ML também têm as suas próprias limi­ tações, pois alguns desses métodos possuem um elevado consumo de recursos computacionais, o que limita a sua aplicação para classificação de grandes fluxos de tráfego ou em tempo real. As limi­ tações no âmbito da aplicação de ML levaram à investigação de abordagens alternativas, incluindo procedimentos baseados em características e métodos estatísticos. Neste sen­ tido, os métodos de análise estatística, tais como distâncias e divergências, têm sido uti­ lizados para classificar tráfego em grandes fluxos e em tempo real. A distância estatística possui como objetivo principal diferenciar os fluxos e permite en­ contrar um padrão nas características de tráfego através de propriedades estatísticas, que possibilitam a classificação. As divergências são expressões funcionais frequentemente relacionadas com a teoria da informação, que mede o grau de discrepância entre duas distribuições quaisquer. Esta tese foca­se na proposta de uma nova abordagem metodológica para classificação de tráfego cifrado ou ofuscado da Internet com base em métodos estatísticos que possibilite avaliar o desempenho da classificação de tráfego de rede, incluindo a utilização de re­ cursos computacionais, em termos de CPU e memória. Foi proposto um conjunto de clas­ sificadores de tráfego baseados nas Divergências de Kullback­Leibler e Jensen­Shannon e Distâncias Euclidiana, Hellinger, Bhattacharyya e Wootters. A seguir resumem­se os quatro principais contributos para o avanço do conhecimento científico reportados nesta tese. Primeiro, realizámos uma ampla revisão de literatura sobre classificação de tráfego ci­ frado e ofuscado de Internet. Os resultados sugerem que os métodos baseados em porta e baseados em carga útil estão se tornando obsoletos em função do crescimento da utiliza­ ção de cifragem de tráfego e encapsulamento de dados multicamada. O tipo de métodos baseados em ML também está se tornando limitado em função da complexidade com­ putacional. Como alternativa, pode­se utilizar a Máquina de Vetor de Suporte (SVM), que também é um método de ML, e os testes de Kolmogorov­Smirnov e Qui­quadrado como referência de comparação da classificação estatística. Em paralelo, surgiu na lite­ ratura a possibilidade de utilização de métodos estatísticos para classificação de tráfego de Internet, com potencial de bons resultados na classificação sem aporte de grandes re­ cursos computacionais. Os métodos estatísticos potenciais são as Distâncias Euclidiana, Hellinger, Bhattacharyya e Wootters, além das Divergências de Kullback–Leibler (KL) e Jensen­Shannon. Segundo, apresentamos uma proposta e implementação de um classificador baseado na Máquina de Vetor de Suporte (SVM) para o tráfego multimédia P2P (Peer­to­Peer), com­ parando os resultados com os testes de Kolmogorov­Smirnov (KS) e Qui­quadrado. Os resultados sugerem que a classificação da SVM com kernel Linear conduz a um melhor desempenho da classificação do que os testes KS e Qui­quadrado, dependente do valor atribuído ao parâmetro Self C. O método SVM com kernel Linear e com valores adequa­ dos para o parâmetro Self C pode ser uma boa escolha para identificar o tráfego Par a Par (P2P) multimédia cifrado na Internet. Terceiro, apresentamos uma proposta e implementação de dois classificadores baseados na Divergência de KullbackLeibler (KL) e na Distância Euclidiana, sendo comparados com a SVM com kernel Linear, configurado para o parâmestro Self C padrão, apresenta reduzi­ da capacidade de classificar fluxos com base apenas nos tamanhos dos pacotes em relação aos métodos KL e Distância Euclidiana. Os métodos KL e Euclidiano foram capazes de classificar todas as aplicações testadas, destacando­se streaming e P2P, onde para quase todos os casos foi eficiente identificá­las com alta precisão, com reduzido con­ sumo de recursos computacionais.Com base nos resultados obtidos, pode­se concluir que os métodos KL e Distância Euclidiana são uma alternativa à SVM, porque essas aborda­ gens estatísticas podem operar em tempo real e não precisam de retreinamento cada vez que surge um novo tipo de tráfego. Quarto, apresentamos uma proposta e implementação de um conjunto de classificadores para o tráfego de Internet cifrado, baseados na Divergência de Jensen­Shannon e nas Dis­ tâncias de Hellinger, Bhattacharyya e Wootters, sendo os respetivos resultados compara­ dos com os resultados obtidos com os métodos baseados na Distância Euclidiana, KL, KS e Qui­quadrado. Além disso, apresentamos uma análise qualitativa comparativa dos métodos testados com base nos valores de Kappa e Curvas Característica de Operação do Receptor (ROC). Os resultados sugerem valores médios de precisão acima de 90% para to­ dos os métodos estatísticos, classificados como “confiabilidade quase perfeita” em valores de Kappa, com exceçãode KS. Esse resultado indica que esses métodos são opções viáveis para a classificação de tráfego cifrado da Internet, em especial a Distância de Hellinger, que apresentou os melhores resultados do valor de Kappa em comparaçãocom os demais classificadores. Conclui­se que os métodos estatísticos considerados podem ser precisos e económicos em termos de consumo de recursos computacionais para classificar o tráfego da rede. A nossa abordagem baseou­se na classificação de tráfego de rede Internet, focando em distâncias e divergências estatísticas. Nós mostramos que é possível classificar e obter bons resultados com métodos estatísticos, equilibrando desempenho de classificação e uso de recursos computacionais em termos de CPU e memória. A validação da proposta sustenta o argumento desta tese, que propõe a implementação de métodos estatísticos como alternativa viável à classificação de tráfego da Internet em relação aos métodos com base no número da porta, na inspeção de carga útil e de ML.
Fichier principal
Vignette du fichier
CUNHA_VANICE_2023.pdf (4.18 Mo) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)
Licence : CC BY NC SA - Paternité - Pas d'utilisation commerciale - Partage selon les Conditions Initiales

Dates et versions

tel-04245204 , version 1 (16-10-2023)

Licence

Paternité - Pas d'utilisation commerciale - Partage selon les Conditions Initiales

Identifiants

Lien texte intégral

Citer

Vanice Canuto Cunha. Timely Classification of Encrypted or Protocol­-Obfuscated Internet Traffic Using Statistical Methods. Networking and Internet Architecture [cs.NI]. Universidade da Beira Interior, 2023. English. ⟨NNT : ⟩. ⟨tel-04245204⟩
38 Consultations
48 Téléchargements

Partager

Gmail Facebook X LinkedIn More