Dynamique d'apprentissage pour Monte Carlo Tree Search : applications aux jeux de Go et du Clobber solitaire impartial

André Fabbri 1
1 SMA - Systèmes Multi-Agents
LIRIS - Laboratoire d'InfoRmatique en Image et Systèmes d'information
Résumé : Depuis son introduction pour le jeu de Go, Monte Carlo Tree Search (MCTS) a été appliqué avec succès à d'autres jeux et a ouvert la voie à une famille de nouvelles méthodes comme Mutilple-MCTS ou Nested Monte Carlo. MCTS évalue un ensemble de situations de jeu à partir de milliers de fins de parties générées aléatoirement. À mesure que les simulations sont produites, le programme oriente dynamiquement sa recherche vers les coups les plus prometteurs. En particulier, MCTS a suscité l'intérêt de la communauté car elle obtient de remarquables performances sans avoir pour autant recours à de nombreuses connaissances expertes a priori. Dans cette thèse, nous avons choisi d'aborder MCTS comme un système apprenant à part entière. Les simulations sont alors autant d'expériences vécues par le système et les résultats sont autant de renforcements. L'apprentissage du système résulte alors de la complexe interaction entre deux composantes : l'acquisition progressive de représentations et la mobilisation de celles-ci lors des futures simulations. Dans cette optique, nous proposons deux approches indépendantes agissant sur chacune de ces composantes. La première approche accumule des représentations complémentaires pour améliorer la vraisemblance des simulations. La deuxième approche concentre la recherche autour d'objectifs intermédiaires afin de renforcer la qualité des représentations acquises. Les méthodes proposées ont été appliquées aux jeu de Go et du Clobber solitaire impartial. La dynamique acquise par le système lors des expérimentations illustre la relation entre ces deux composantes-clés de l'apprentissage
Type de document :
Thèse
Intelligence artificielle [cs.AI]. Université Claude Bernard - Lyon I, 2015. Français. <NNT : 2015LYO10183>
Liste complète des métadonnées

https://tel.archives-ouvertes.fr/tel-01234642
Contributeur : Abes Star <>
Soumis le : mercredi 2 décembre 2015 - 09:37:07
Dernière modification le : mercredi 13 janvier 2016 - 10:08:08

Fichier

TH2015FabbriAndre.pdf
Version validée par le jury (STAR)

Identifiants

  • HAL Id : tel-01234642, version 1

Collections

Citation

André Fabbri. Dynamique d'apprentissage pour Monte Carlo Tree Search : applications aux jeux de Go et du Clobber solitaire impartial. Intelligence artificielle [cs.AI]. Université Claude Bernard - Lyon I, 2015. Français. <NNT : 2015LYO10183>. <tel-01234642>

Partager

Métriques

Consultations de
la notice

504

Téléchargements du document

320