Utilisation de treillis de Galois pour structurer la généralisation des politiques pour l’Apprentissage par Renforcement - TEL - Thèses en ligne Accéder directement au contenu
Thèse Année : 2009

Generalization of Policies for Reinforcement Learning using Galois Lattices

Utilisation de treillis de Galois pour structurer la généralisation des politiques pour l’Apprentissage par Renforcement

Résumé

This work considers the generalization of the policies for reinforcement learning. The problem of generalizing from a set of examples or researching features are widely explored subjects in artificial intelligence. Thus, we propose to use generalization methods based on a language bias to generalize policies. Those are principally based on Galois lattices properties. Firstly, we propose a general algebraical framework formalizing the generalization of policies. During its learning, the agent observes a set of the environment’s states. We formalize the generalization of policies as a partitioning of this set. Usually used on the powerset, we propose to use the Galois lattices methods on the partition lattice. This allows us to propose an algorithm which produces, after a reinforcement learning, interesting concepts from the task point of view. These can be used to describe the policy or as features for other similar tasks. Finally, we propose a new way to formalized a reinforcement learning task and an associated algorithmic method called Q-Concept Learning, consisting in applying a learning step on the all set of the generalizations available considering the used language bias. In this context, we will discuss about solutions that allow the agent to generate in line policies. Our methods are implemented ans tested on academical problems.
Nos travaux envisagent la question de la généralisation des politiques pour l’apprentissage par renforcement. Or, le problème de la généralisation à partir d’un ensemble d’exemples ou de la recherche de régularités sont des sujets déjà intensivement traités en apprentissage artificiel. Ainsi, nous nous proposons d’utiliser des techniques de généralisations contraintes par un biais de langage pour la généralisation des politiques. Celles-ci sont principalement basées sur les propriétés des treillis de Galois. Premièrement, nous proposons un cadre algébrique général, formalisant la généralisation des politiques sous l’angle du partitionnement de l’ensemble des états de l’environnement observés par l’agent. Habituellement utilisées sur le treillis des parties, nous proposerons d’utiliser les techniques de treillis de Galois sur les treillis des partitions. Ceci nous permet de proposer un algorithme produisant, après un apprentissage par renforcement, des concepts intéressants du point de vue de la tâche. Ceux-ci peuvent être utilisés pour décrire la politique ou servir de motifs pour d’autres tâches dans un environnement similaire. Enfin, nous proposerons une reformalisation de la tâche d’apprentissage ainsi qu’une méthode algorithmique associée que nous appellerons Q-Concept-Learning, consistant à appliquer un apprentissage sur l’ensemble des généralisations admises par le biais de langage utilisé. Dans ce contexte, nous discuterons et avancerons des solutions permettant à l’agent de générer des politiques « en ligne ». Les méthodes sont implémentées et expérimentées sur des problèmes académiques
Fichier principal
Vignette du fichier
These Marc Ricordeau - 24062009.pdf (13.29 Mo) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)

Dates et versions

tel-04238310 , version 1 (12-10-2023)

Identifiants

  • HAL Id : tel-04238310 , version 1

Citer

Marc Ricordeau. Utilisation de treillis de Galois pour structurer la généralisation des politiques pour l’Apprentissage par Renforcement. Informatique [cs]. Université de Montpellier, 2009. Français. ⟨NNT : ⟩. ⟨tel-04238310⟩
12 Consultations
12 Téléchargements

Partager

Gmail Facebook X LinkedIn More