Intelligent Orchestration of High Performance, Scalable, and Correct Data Centres As a Network Service - TEL - Thèses en ligne Accéder directement au contenu
Thèse Année : 2023

Intelligent Orchestration of High Performance, Scalable, and Correct Data Centres As a Network Service

Orchestration intelligente et à la couche réseau pour des centres de données de haute performance, extensibles, et corrects

Résumé

Applications and services have become more complex, while the Internet has become increasingly difficult to evolve both regarding its physical infrastructure, and its protocols and performance.Being responsible for policy configurations as well as network management and performance tuning, network operators are shifting towards the use of more and more automated tools to accomplish these tasks.The concept of "programmable networks" has emerged to alleviate the challenges, and to facilitate network evolution.This includes paradigms such as (i) software-defined networking (SDN) and (ii) network function virtualization (NFV), which decouple the forwarding hardware into control plane and data plane, and which seek to abstract network forwarding, and other networking functions, from the hardware.In the era of "big data" on cloud computing, these paradigms have enabled rich network traffic processing services, while having also reduced the granularity of task allocation in data centres.It has been recognised that shifting controllers from logically-centralised to distributed will increase not only scalability, but also robustness to inconsistency.Machine-Learning (ML)-based approaches have been proposed to deploy more intelligence in networks, when using decoupled control and data planes.In this context, the question explored in this thesis is whether, and how, it is possible to offer generic, data-driven networking functions in data center networks as services, for constructing autonomous networking systems which optimize networking performances with minimal human intervention and operational complexity.This thesis investigate the increasing scale, complexity, and heterogeneity of networking infrastructure, and of protocols, as well as the demand for virtualisation and cloud support services in terms of efficient resource management, rapid provisioning and scalability presents a set of new challenges in effective network organisation, management and optimisation.This is accomplished by studying how certain network functions and primitives (traffic classification, auto-scaling, load balancing) can be reliably enhanced by various data-driven algorithms, while bearing in mind the in-production requirements in data center networks -- high scalability, high throughput, low latency, and low overheads.The characteristics of networking features in the context of in-production overlay networks are investigated first, which opens the discussion of the challenges of collecting measurement and deploying data-driven networking policies in real-world systems.To tackle these challenges, a generic tool to extract networking features from the data plane and deploy ML algorithms for various networking functions in real-world networking systems is built.A methodological framework is also designed and showcased, allowing for developing algorithms of different learning paradigms for networking problems.This thesis then dedicates the study on network load balancing problems in data center networks, on which a survey of state-of-the-art load balancers is provided.A hardware-based load balancing mechanism is proposed, achieving line-rate load-aware workload distribution by exploiting server load information embedded in packet headers as feedback signals.Finally, both an open-loop and a closed-loop learning load balancing algorithms are proposed based on learning algorithms, and they show better performance than state-of-the-art load balancing methods.
Les applications et les services sont devenus plus complexes et plus évolutifs, ce qui complique la configuration et la gestion des politiques de mise en réseau pour des performances optimisées.Le concept de « réseaux programmables » a émergé pour atténuer les défis et faciliter l'évolution du réseau.Cela inclut des paradigmes tels que (i) la mise en réseau définie par logiciel (SDN) et (ii) la virtualisation des fonctions réseau (NFV), qui découplent le matériel de transfert en plan de contrôle et plan de données, et qui cherchent à faire abstraction du transfert de réseau et d'autres fonctions de mise en réseau. , du matériel.A l'ère du "big data" sur le cloud computing, ces paradigmes ont permis des services riches de traitement du trafic réseau, tout en ayant également réduit la granularité de l'allocation des tâches dans les centres de données.Il a été reconnu que le passage des contrôleurs logiquement centralisés à distribués augmentera non seulement l'évolutivité, mais également la résistance à l'incohérence.Des approches basées sur l'apprentissage automatique (ML) ont été proposées pour déployer plus d'intelligence dans les réseaux, lors de l'utilisation de plans de contrôle et de données découplés.Dans ce contexte, la question explorée dans cette thèse est de savoir si, et comment, il est possible d'offrir des fonctions de mise en réseau génériques basées sur les données dans les réseaux de centres de données en tant que services, pour construire des systèmes de mise en réseau autonomes qui optimisent les performances de mise en réseau avec un minimum d'intervention humaine et opérationnelle. complexité.Cette thèse étudie l'échelle, la complexité et l'hétérogénéité croissantes de l'infrastructure réseau et des protocoles, ainsi que la demande de services de virtualisation et de support cloud en termes de gestion efficace des ressources, de provisionnement rapide et d'évolutivité présente un ensemble de nouveaux défis dans un réseau efficace. organisation, gestion et optimisation.Ceci est accompli en étudiant comment certaines fonctions et primitives du réseau (classification du trafic, mise à l'échelle automatique, équilibrage de charge) peuvent être améliorées de manière fiable par divers algorithmes basés sur les données, tout en gardant à l'esprit les exigences en production dans les réseaux de centres de données - évolutivité élevée , haut débit, faible latence et faibles frais généraux.Les caractéristiques des fonctionnalités de mise en réseau dans le contexte des réseaux superposés en production sont d'abord étudiées, ce qui ouvre la discussion sur les défis de la collecte de mesures et du déploiement de politiques de mise en réseau basées sur les données dans des systèmes du monde réel.Pour relever ces défis, un outil générique permettant d'extraire les fonctionnalités de mise en réseau du plan de données et de déployer des algorithmes ML pour diverses fonctions de mise en réseau dans des systèmes de mise en réseau du monde réel est construit.Un cadre méthodologique est également conçu et présenté, permettant de développer des algorithmes de différents paradigmes d'apprentissage pour les problèmes de réseau.Cette thèse consacre ensuite l'étude sur les problèmes d'équilibrage de charge réseau dans les réseaux de centres de données, sur laquelle un état des lieux de l'état de l'art des équilibreurs de charge est fourni.Un mécanisme d'équilibrage de charge basé sur le matériel est proposé, réalisant une distribution de charge de travail sensible à la charge en exploitant les informations de charge du serveur intégrées dans les en-têtes de paquet en tant que signaux de retour.Enfin, des algorithmes d'équilibrage de charge d'apprentissage en boucle ouverte et en boucle fermée sont proposés sur la base d'algorithmes d'apprentissage, et ils montrent de meilleures performances que les méthodes d'équilibrage de charge de pointe.
Fichier principal
Vignette du fichier
119021_YAO_2023_archivage.pdf (18.67 Mo) Télécharger le fichier
Origine : Version validée par le jury (STAR)

Dates et versions

tel-04116293 , version 1 (03-06-2023)
tel-04116293 , version 2 (01-03-2024)

Identifiants

  • HAL Id : tel-04116293 , version 2

Citer

Zhiyuan Yao. Intelligent Orchestration of High Performance, Scalable, and Correct Data Centres As a Network Service. Networking and Internet Architecture [cs.NI]. Institut Polytechnique de Paris, 2023. English. ⟨NNT : 2023IPPAX019⟩. ⟨tel-04116293v2⟩

Collections

X STAR IP_PARIS
935 Consultations
154 Téléchargements

Partager

Gmail Facebook X LinkedIn More