Apprentissage de stratégies coopératives dans un contexte de jeu multi-opérateurs de télécommunications : l'IA coopérative au service des dilemmes sociaux

Tangui Le Gléau

Thèse Année : 2022

Learning cooperative strategies in a game of multiple Telecom providers : cooperative artificial intelligence at the service of social dilemmas

Apprentissage de stratégies coopératives dans un contexte de jeu multi-opérateurs de télécommunications : l'IA coopérative au service des dilemmes sociaux

(1)

Tangui Le Gléau

Fonction : Auteur
PersonId : 1174248
IdRef : 264761774

Institut de Recherche en Informatique et Systèmes Aléatoires

Résumé

The objective of this PhD thesis is the study of policy learning within general-sum non-cooperative games (in particular the social dilemmas) in order to model cooperative interactions between telecom providers. First, it has been interesting to study the behavior of learning agents (such as reinforcement learning (RL) policies or multi-armed bandits) in an iterated prisoner’s dilemma (IPD). The first conclusions show that RL polices struggle to converge towards mutual cooperation. Given this observation, it becomes important to focus on simple strategies like Tit-for-tat (TFT) which will eventually be added to more complex policies (such Deep RL). The main contributions of the thesis were initially improvements proposal for simple two-player strategies such as continuous TFT. We then turned to N-player prisoner dilemma models. We have introduced an extension allowing to model a cooperation that is not necessarily bilateral and can be potentially circular, which then led to a proposal for a suitable strategy, based on continuous TFT and graph-processing algorithms. Secondly, we extended the previous paradigm to the formalism of sequential social dilemmas (SSD) (an existing extension of the IPD that extends the atomic actions of players into complex RL policies). To address this new game model, we then proposed a strategy that uses RL policies and TFT strategies. Finally, we carried out some simulations in a Telecom context. The first contribution was the implementation of a multi-provider environment for the cooperation simulation. A few simulations were then carried out: some of the previously developed strategies were used to study the agent’s behavior in various multi-provider scenarios of cooperation.

L’objectif de la thèse est l’étude de l’apprentissage de politiques au sein de jeux non-coopératifs à somme non-nulle (de type dilemmes sociaux) dans le but de modéliser des interactions de coopération entre opérateurs de Télécom. Pour commencer, il a été intéressant d’étudier le comportement d’agents apprenants (tels que des politiques d’apprentissage par renforcement (RL) ou des bandits manchots) dans un dilemme du prisonnier itéré (IPD). Les premières conclusions montrent que le RL peine à converger vers des politiques de coopération mutuelles. Étant donné ce constat, il devient important de nous intéresser à des stratégies simples comme le Tit-for-tat (TFT) qui viendront à terme s’ajouter à des politiques plus complexes de type RL. Les principales contributions de la thèse ont été dans un premier temps des propositions d’améliorations de stratégies simples à deux joueurs telles que le TFT continu. Nous nous sommes ensuite intéressés aux modèles de dilemmes du prisonnier à N joueurs. Nous avons introduit une extension qui permet de modéliser une coopération non nécessairement bilatérale et potentiellement circulaire, ce qui a conduit alors à une proposition de stratégie adaptée, basée sur du TFT continu et des algorithmes de traitement de graphe. Dans un second temps, nous avons étendu le paradigme précédent au formalisme des dilemmes sociaux séquentiels (une extension existante de l'IPD qui permet d’étendre les actions atomiques des joueurs en des politiques plus complexes). Pour adresser ce nouveau modèle de jeu, nous avons alors proposé une stratégie qui utilise des politiques de RL et des stratégies de TFT. Enfin, nous avons procédé à quelques simulations dans un contexte Télécom. La première contribution a été l’implémentation d’un environnement de simulation de collaboration multi-opérateurs. Quelques simulations ont été ensuite conduites : les stratégies précédemment développées ont été mises en jeu dans divers scénarios de coopération multi-opérateurs.

Mots clés

Game Theory Machine Learning Prisoner's Dilemma Reinforcement Learning

Théorie des jeux Apprentissage automatique Dilemme du prisonnier Apprentissage par renforcement

Domaines

Intelligence artificielle [cs.AI]

Fichier principal

LE_GLEAU_Tangui.pdf (7.89 Mo)

Origine : Version validée par le jury (STAR)

ABES STAR : Contact

https://theses.hal.science/tel-03813640

Soumis le : jeudi 13 octobre 2022-14:42:22

Dernière modification le : vendredi 24 mars 2023-14:53:28

Archivage à long terme le : samedi 14 janvier 2023-19:17:18

Dates et versions

tel-03813640 , version 1 (13-10-2022)

Identifiants

HAL Id : tel-03813640 , version 1

Citer

Tangui Le Gléau. Apprentissage de stratégies coopératives dans un contexte de jeu multi-opérateurs de télécommunications : l'IA coopérative au service des dilemmes sociaux. Intelligence artificielle [cs.AI]. Université Rennes 1, 2022. Français. ⟨NNT : 2022REN1S014⟩. ⟨tel-03813640⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

INSTITUT-TELECOM UNIV-RENNES1 CNRS INRIA INSA-RENNES IRISA STAR CENTRALESUPELEC UR1-THESES UR1-MATH-STIC UR1-UFR-ISTIC UNIV-RENNES INSA-GROUPE UR1-MATH-NUM

81 Consultations

42 Téléchargements

Learning cooperative strategies in a game of multiple Telecom providers : cooperative artificial intelligence at the service of social dilemmas

Apprentissage de stratégies coopératives dans un contexte de jeu multi-opérateurs de télécommunications : l'IA coopérative au service des dilemmes sociaux

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager