DNS as a Source of Trust and Information in the Modern Internet

Simon Fernandez

Résumé

The Domain Name System is a cornerstone of the modern Internet, providing information on millions of domain names by answering billions of requests per day. It is often simplified as just a system mapping human-readable names to machine IP addresses, but it fills multiple other roles and many systems use its architecture, availability, and resilience as a foundation for their design. The DNS is a hierarchical and distributed system, storing technical information on domain names, like their IP address allowing other devices on the network to contact them, or the name of the server in charge of their mail boxes. However, the DNS protocol was designed in the early 1980s, when the Internet was just a small set of interconnected universities and government agencies. Therefore, hundreds of protocol extensions were added to its specifications to better address the needs and paradigms of the growing and changing Internet. Thanks to its unique properties, many different systems rely on the domain name architecture and the DNS infrastructure, like mail delivery and security, load balancing, intrusion detection systems and service discovery. Malicious actors also leverage the DNS architecture to increase their reach, impact, or hide their identity, like spam campaigns, Denial of Service attacks, malware delivery or botnets control. Querying the DNS is often the first step of a connection between two devices on the Internet, so observing this traffic can reveal ongoing spam campaigns, software updates distributions, misconfigurations, the rise of the Internet of Things or cyberwars between countries. However, studying the DNS is a challenging task, considering the massive volume of queries and its distributed architecture. Nevertheless, observing even a sample of the DNS traffic can still provide crucial insights into how the modern Internet is organized and how different entities and systems use it. In this thesis, we explore the DNS as a way to establish trust between entities on the Internet and as a source of information providing valuable insights on the Internet usages and diversity. We dive into the domain name registration process and challenge the assumption that the data stored in multiple domain name registration databases are always coherent. This hypothesis made by previous works turned out to be true for the majority of domains, but we raise concerns on some inconsistencies that still remain. We designed a naming scheme for constrained devices that leverages the DNS capabilities, allowing for efficient encoding of properties and location. This design also provides ways to discover devices based on these properties without adding load to the end devices. Finally, we study the security configuration and DNS traffic patterns of domains distributing spam. We propose a detection algorithm leveraging the differences between benign domains and spam domains to classify spam domains even before the start of a spam campaign, allowing defenders to take protective measures quickly and prevent attacks.

Le Domain Name system est une pierre angulaire de l’Internet moderne, fournissant des informations techniques sur des millions de domaines en répondant à des milliards de requêtes chaque jour. Il est souvent réduit à sa fonction de table associant une adresse IP à chaque nom de domaine, mais le DNS a de nombreux autres rôles et un grand nombre de systèmes se basent sur son architecture et sa stabilité. Le DNS est un système hiérarchique distribué, associant des informations techniques à des noms de domaines, comme leur adresse IP sur le réseau permettant de les contacter, ou le nom du serveur en charge de la gestion de leurs mails. Cependant, le DNS a été créé au début des années 80, quand Internet n’était qu’un petit ensemble d’universités et agences gouvernementales interconnectées. Des centaines d’additions et extensions ont été ajoutées au protocole pour l’adapter aux besoins grandissants et changeants de l’Internet. Grâce à sa facilité d’utilisation, son adoption massive et son architecture résiliente, de nombreux systèmes s’appuient sur les noms de domaines et le DNS, comme les protocoles d’envoi et de réception de mails, les équilibreurs de charge, des systèmes de détection d’intrusion ou de découverte de services. Des systèmes mal intentionnés utilisent aussi l’architecture DNS pour augmenter leur efficacité ou cacher leur identité, comme l’envoi de pourriels, des attaques de déni de service, de la distribution de virus ou le contrôle de botnets. La majorité des connexions entre deux terminaux sur Internet commence par des requêtes DNS. Observer ces requêtes permet donc d’observer en direct de nombreux événements, comme des campagnes d’envoi de pourriels, le déploiement de mises à jour, des problèmes de configuration, la montée de l’Internet des Objets ou des cyber-conflits entre des états. Cependant, étudier le DNS est une tâche complexe, étant donné l’important volume de trafic qu’il représente, et son architecture distribuée. Toutefois, même en se limitant à des échantillons du trafic réel, ce trafic permet de mieux comprendre comment l’Internet est organisé, et comment différents acteurs l’utilisent. Dans ce travail de thèse, nous avons étudié le DNS dans son rôle d’établissement de liens de confiance entre terminaux et en tant que source d’information permettant de mieux comprendre la diversité et l’usage actuel d’Internet. Nous avons tout d’abord étudié le processus d’enregistrement de noms de domaines, en remettant en question une hypothèse, faites par plusieurs articles scientifiques et travaux techniques, que les multiples sources d’information sur les noms de domaines étaient toujours cohérentes entre elles. Nous avons apporté des preuves confirmant cette cohérence dans la majorité des cas, rassurant ainsi les travaux collectant ces données pour un grand nombre de domaines. Nous avons cependant souligné que certains types d’entrées étaient plus souvent erronés, et que les travaux se basant sur leur contenu doivent avoir une vigilance particulière vis à vis de leur cohérence. Nous avons créé un schéma de nommage pour des terminaux à capacités limitées, permettant d’encoder efficacement les propriétés et localisation du terminal. Ce système utilise l’infrastructure DNS et exploite le format des noms de domaines pour permettre des requêtes rapides et efficaces, n’impliquant pas de charge supplémentaire pour les terminaux découverts. Enfin, nous avons étudié les entrées DNS de configurations de sécurité et le trafic DNS des domaines envoyant des pourriels. Nous avons construit un outil de détection utilisant des différences de configuration entre domaines bénins et domaines malveillants pour détecter les domaines malveillants avant qu’ils n’envoient le moindre mail, permettant de prendre des mesures défensives rapides et d’empêcher certaines attaques.

DNS as a Source of Trust and Information in the Modern Internet

Le DNS comme Source de Confiance et d’Information pour l’Internet Moderne

Résumé

Mots clés

Domaines

Dates et versions

Licence

Identifiants

Citer

Exporter

Collections

Partager