2526 articles  [version française]
Detailed view PhD thesis
Université Pierre et Marie Curie - Paris VI (12/10/2009), Philippe Robert, Serge Fdida (Dir.)
Attached file list to this document: 
PDF
these_YousraChabchoub.pdf(970.1 KB)
Analyse et modélisation du trafic internet
Yousra Chabchoub1

Cette thèse s'inscrit dans le domaine de l'analyse et la modélisation du trafic Internet à l'échelle des flots. Les informations sur les flots (surtout les grands flots) sont très utiles dans différents domaines comme l'ingénierie du trafic, la supervision du réseau et la sécurité. L'extraction en ligne des statistiques sur les flots est une tâche difficile à cause du très haut débit du trafic actuel. Nous nous sommes intéressés dans cette thèse à l'étude de deux classes d'algorithmes traitant en ligne le trafic Internet. Dans la première partie, nous avons conçu un nouvel algorithme basé sur les filtres de Bloom pour l'identification en ligne des grands flots. Le point fort de cet algorithme est l'adaptation automatique aux variations du trafic. Une application intéressante est la détection en ligne des attaques par déni de service. Nous avons donc développé une version de l'algorithme qui intègre les spécificités des attaques. L'expérimentation en ligne montre que cette nouvelle méthode est capable d'identifier quasiment toutes les sources de trafic anormal avec un délai très court. Nous avons aussi étudié la performance de l'algorithme d'identification en ligne des grands flots. En considérant un modèle simplifié, nous avons pu approcher l'erreur générée par cet algorithme sur l'estimation du nombre de grands flots. Cette étude a permis en particulier d'évaluer l'impact des différents paramètres de l'algorithme sur sa performance. Les algorithmes présentés dans la première partie s'appliquent sur la totalité du trafic, ce qui n'est pas toujours possible car dans certains cas, on ne dispose que du trafic échantillonné. La deuxième partie de la thèse est consacrée à l'étude de l'échantillonnage et des algorithmes d'inférence des caractéristiques du trafic d'origine. D'abord, en utilisant un résultat d'approximations poissonniennes, nous avons montré que les deux méthodes d'échantillonnage: déterministe et probabiliste donnent des résultats équivalents du point de vue composition du trafic échantillonné en flots. Ensuite, nous avons conçu un algorithme permettant d'estimer, par un calcul asymptotique, à partir du trafic échantillonné, le nombre de flots dans le trafic réel et la distribution de leur taille sur un intervalle de temps court. Ceci permet de faire l'hypothèse à priori que cette distribution suit une loi de Pareto. Cette hypothèse a été validée sur des traces de trafic de différentes natures.
1:  INRIA Paris-Rocquencourt - RAP
Filtres de Bloom – grands flots – attaques par déni de service – échantillonnage – loi de Pareto.

Analyzing and modelling internet traffic
This thesis is a contribution to the field of Internet traffic analysis at the flow level. For traffic engineering purposes like supervision and security for example, it is important to be able to characterize flows, especially the large ones. Due to the very high bit rate and the huge num- ber of flows in IP traffic, it is very difficult to extract on-line statistics on flows. In this thesis we focused on two kinds of on-line algorithms for Internet traffic analysis. In the first part, we developed a new algorithm based on Bloom filters for large flows iden- tification. The advantage of this algorithm is it can adapt to traffic variations. An interesting application to this algorithm is the on-line detection of denial of service attacks. For this purpose, we proposed an adapted algorithm taking into account attacks specificities. On-line experiments show that this new method is able to identify almost all sources of anomalous traffic in a very short delay. In addition, we analyzed the performances of the algorithm for on-line identification of large flows. We analytically estimated the error generated by the algorithm on the number of elephants. The algorithms presented in the first part are performed on the exhaustive traffic which is not usually possible because in some cases we have only access to the sampled traffic. The second part of the thesis is dedicated to sampling analysis and the study of algorithms inferring the original traffic characteristics. First, using a result on Poisson approximations, we proved that the two sampling methods : deterministic and probabilistic give equivalent results in terms of sampled traffic composition at the flow level. Then we developed a new method inferring, from the sampled traffic, via asymptotic procedures, flows number and size distribution in a small time window. This enables us to suppose à priori that this distribution is a Pareto. This hypothesis was validated against different traffic traces.
Bloom filters – large flows – denial of service attacks – sampling – Pareto.