Stratégies optimistes en apprentissage par renforcement - TEL - Thèses en ligne Accéder directement au contenu
Thèse Année : 2010

Optimistic strategies in Reinforcement Learning

Stratégies optimistes en apprentissage par renforcement

Résumé

This thesis concerns « model-based » methods to solve reinforcement learning problems : an agent interacts with an environment by sequentially choosing actions that effect the state of the environment. The agent receives at each time point a reward which depends on the action and on the state of the environment. The aim of the agent is to maximise the cumulative rewards without knowing the model of interaction.We consider different models of interaction : Markov decision processes, partially observed Markov decision processes and bandit models. For each of these models, we provide « model-based » algorithms : These methods define a set of models which could explain the interaction between an agent and an environnement. To analyze the performance of our algorithm we study their regret which is the difference between the cumulative reward received by an agent who knows the model of the interaction and the ones received following the algorithm. Moreover, our novel algorithms perform well in practice. In particular, they guarantee a good balance of the well-known compromise between exploration and exploitation. The first algorithm proposed in this thesis consists of following an exploration policy during which the model is estimated and then an exploitation one. The duration of the exploration phase is controled in an adaptative way. We then obtain a logarithmic regret for a parametric Markov decision problem even if the state is partially observed. This type of model is motivated by an application of interest in cognitive radio : the opportunistic access of a communication network by a secondary user. The two other novel algorithms are optimistic ones : the agent chooses the optimal actions for the best possible model amongst a set of likely models. We construct and analyse such an algorithm in a parametric bandit model for a generalized linear model. We consider an online advertisement application. We then use the Kullback-Leibler divergence to construct the set of likely models in optimisic algorithms for finite Markov decision processes. This change in metric is studied in details and leads to significant improvement in practice. A theoretic analysis of the regret of those algorithms is also provided.
Cette thèse traite de méthodes « model-based » pour résoudre des problèmes d'apprentissage par renforcement. On considère un agent confronté à une suite de décisions et un environnement dont l'état varie selon les décisions prises par l'agent. Ce dernier reçoit tout au long de l'interaction des récompenses qui dépendent à la fois de l'action prise et de l'état de l'environnement. L'agent ne connaît pas le modèle d'interaction et a pour but de maximiser la somme des récompenses reçues à long terme. Nous considérons différents modèles d'interactions : les processus de décisions markoviens, les processus de décisions markoviens partiellement observés et les modèles de bandits. Pour ces différents modèles, nous proposons des algorithmes qui consistent à construire à chaque instant un ensemble de modèles permettant d'expliquer au mieux l'interaction entre l'agent et l'environnement. Les méthodes dites « model-based » que nous élaborons se veulent performantes tant en pratique que d'un point de vue théorique. La performance théorique des algorithmes est calculée en terme de regret qui mesure la différence entre la somme des récompenses reçues par un agent qui connaîtrait à l'avance le modèle d'interaction et celle des récompenses cumulées par l'algorithme. En particulier, ces algorithmes garantissent un bon équilibre entre l'acquisition de nouvelles connaissances sur la réaction de l'environnement (exploration) et le choix d'actions qui semblent mener à de fortes récompenses (exploitation). Nous proposons deux types de méthodes différentes pour contrôler ce compromis entre exploration et exploitation. Le premier algorithme proposé dans cette thèse consiste à suivre successivement une stratégie d'exploration, durant laquelle le modèle d'interaction est estimé, puis une stratégie d'exploitation. La durée de la phase d'exploration est contrôlée de manière adaptative ce qui permet d'obtenir un regret logarithmique dans un processus de décision markovien paramétrique même si l'état de l'environnement n'est que partiellement observé. Ce type de modèle est motivé par une application d'intérêt en radio cognitive qu'est l'accès opportuniste à un réseau de communication par un utilisateur secondaire. Les deux autres algorithmes proposés suivent des stratégies optimistes : l'agent choisit les actions optimales pour le meilleur des modèles possibles parmi l'ensemble des modèles vraisemblables. Nous construisons et analysons un tel algorithme pour un modèle de bandit paramétrique dans un cas de modèles linéaires généralisés permettant ainsi de considérer des applications telles que la gestion de publicité sur internet. Nous proposons également d'utiliser la divergence de Kullback-Leibler pour la construction de l'ensemble des modèles vraisemblables dans des algorithmes optimistes pour des processus de décision markoviens à espaces d'états et d'actions finis. L'utilisation de cette métrique améliore significativement le comportement de des algorithmes optimistes en pratique. De plus, une analyse du regret de chacun des algorithmes permet de garantir des performances théoriques similaires aux meilleurs algorithmes de l'état de l'art.
Fichier principal
Vignette du fichier
manuscrit_these_SarahFilippi_depotlegal.pdf (1.85 Mo) Télécharger le fichier
Loading...

Dates et versions

tel-00551401 , version 1 (03-01-2011)

Identifiants

  • HAL Id : tel-00551401 , version 1

Citer

Sarah Filippi. Stratégies optimistes en apprentissage par renforcement. Mathématiques [math]. Ecole nationale supérieure des telecommunications - ENST, 2010. Français. ⟨NNT : ⟩. ⟨tel-00551401⟩
714 Consultations
2310 Téléchargements

Partager

Gmail Facebook X LinkedIn More