Stochastic Graphical Bilinear Bandits - TEL - Thèses en ligne Accéder directement au contenu
Thèse Année : 2022

Stochastic Graphical Bilinear Bandits

Bandits Bilinéaires Graphiques Stochastiques

Résumé

We introduce a new model called Graphical Bilinear Bandits where a learner (or a central entity) allocates arms to nodes of a graph and observes for each edge a noisy bilinear reward representing the interaction between the two end nodes. In this thesis, we study the best arm identification problem and the maximization of cumulative rewards. For the first problem, a learner wants to find the graph allocation maximizing the sum of the bilinear rewards obtained through the graph. For the second problem, during the learning process, the learner has to make a trade-off between exploring the arms to gain accurate knowledge of the environment and exploiting the arms that appear to be the bests to obtain the highest reward. Regardless of the learner’s goal, the graphical bilinear bandit model reveals an underlying NP-Hard combinatorial problem that precludes the use of any existing best arm identification (BAI) or regret-based algorithms. For this reason, we first propose an α-approximation algorithm for the underlying NP-hard problem, and then tackle the two problems mentioned above. By efficiently exploiting the geometry of the bandit problem, we propose a random sampling strategy for the BAI problem with theoretical guarantees. In particular, we characterize the influence of the graph structure (e.g., star, complete or circle) on the convergence rate and propose empirical experiments that confirm this dependence. For the problem of maximizing the cumulative rewards, we present the first regret-based algorithm for graphical bilinear bandits using the principle of optimism in the face of uncertainty. Theoretical analysis of the presented method gives an upper bound of Õ(√T ) on the α-regret and highlights the impact of the graph structure on the convergence rate. Finally, we demonstrate by various experiments the validity of our approaches.
Nous introduisons un nouveau modèle appelé Bandits Bilinéaires Graphiques où un apprenant (ou une entité centrale) alloue des bras aux noeuds d’un graphe et observe pour chaque arête une récompense bilinéaire bruitée représentant l’interaction entre les deux noeuds associés. Dans cette thèse, nous étudions le problème d’identification du meilleur bras et la maximisation des récompenses cumulées. Pour le premier, un apprenant veut trouver l’allocation du graphe maximisant la somme des récompenses bilinéaires obtenues à travers le graphe. Pour le second problème, au cours du processus d’apprentissage, l’apprenant doit faire un compromis entre l’exploration des bras pour acquérir une connaissance précise de l’environnement et l’exploitation des bras qui semblent être les meilleurs pour obtenir la récompense la plus élevée. Quel que soit l’objectif de l’apprenant, le modèle de bandits bilinéaires graphiques révèle un problème combinatoire sous-jacent qui est NP-Dur et qui empêche l’utilisation de tout algorithme existant pour l’identification du meilleur bras (BAI) ou pour la maximisation des récompenses cumulées. Pour cette raison, nous proposons tout d’abord un algorithme d’α-approximation pour le problème NP-Dur sous-jacent, puis nous nous attaquons aux deux problèmes mentionnés ci-dessus. En exploitant efficacement la géométrie du problème du bandit, nous proposons une stratégie d’échantillonnage aléatoire pour le problème BAI avec des garanties théoriques. En particulier, nous caractérisons l’influence de la structure du graphe (par exemple, étoile, complet ou cercle) sur le taux de convergence et proposons des expériences empiriques qui confirment cette dépendance. Pour le problème de la maximisation des récompenses cumulées, nous présentons le premier algorithme basé sur le regret pour les bandits bilinéaires graphiques utilisant le principe d’optimisme face à l’incertitude. L’analyse théorique de la méthode présentée borne l’α-regret par Õ(√T ) et souligne l’impact de la structure du graphe sur le taux de convergence. Enfin, nous démontrons par diverses expériences la validité de nos approches.
Fichier principal
Vignette du fichier
2022UPSLD046.pdf (3.53 Mo) Télécharger le fichier
Origine : Version validée par le jury (STAR)

Dates et versions

tel-04097367 , version 1 (15-05-2023)

Identifiants

  • HAL Id : tel-04097367 , version 1

Citer

Geovani Rizk. Stochastic Graphical Bilinear Bandits. Other [cs.OH]. Université Paris sciences et lettres, 2022. English. ⟨NNT : 2022UPSLD046⟩. ⟨tel-04097367⟩
52 Consultations
55 Téléchargements

Partager

Gmail Facebook X LinkedIn More