Optimisation des chaînes de production dans l'industrie sidérurgique : une approche statistique de l'apprentissage par renforcement

Matthieu Geist 1, 2, 3
3 CORIDA - Robust control of infinite dimensional systems and applications
IECN - Institut Élie Cartan de Nancy, LMAM - Laboratoire de Mathématiques et Applications de Metz, Inria Nancy - Grand Est
Résumé : L'apprentissage par renforcement est la réponse du domaine de l'apprentissage numérique au problème du contrôle optimal. Dans ce paradigme, un agent informatique apprend à contrôler un environnement en interagissant avec ce dernier. Il reçoit régulièrement une information locale de la qualité du contrôle effectué sous la forme d'une récompense numérique (ou signal de renforcement), et son objectif est de maximiser une fonction cumulante de ces récompenses sur le long terme, généralement modélisée par une fonction dite de valeur. Le choix des actions appliquées à l'environnement en fonction de sa configuration est appelé une politique, et la fonction de valeur quantifie donc la qualité de cette politique. Ce parangon est très général, et permet de s'intéresser à un grand nombre d'applications, comme la gestion des flux de gaz dans un complexe sidérurgique, que nous abordons dans ce manuscrit. Cependant, sa mise en application pratique peut être difficile. Notamment, lorsque la description de l'environnement à contrôler est trop grande, une représentation exacte de la fonction de valeur (ou de la politique) n'est pas possible. Dans ce cas se pose le problème de la généralisation (ou de l'approximation de fonction de valeur) : il faut d'une part concevoir des algorithmes dont la complexité algorithmique ne soit pas trop grande, et d'autre part être capable d'inférer le comportement à suivre pour une configuration de l'environnement inconnue lorsque des situations proches ont déjà été expérimentées. C'est le problème principal que nous traitons dans ce manuscrit, en proposant une approche inspirée du filtrage de Kalman.
Type de document :
Thèse
Mathématiques [math]. Université de Metz, 2009. Français
Liste complète des métadonnées


https://tel.archives-ouvertes.fr/tel-00441557
Contributeur : Sébastien Van Luchene <>
Soumis le : mercredi 16 décembre 2009 - 14:59:34
Dernière modification le : jeudi 16 mars 2017 - 01:05:55
Document(s) archivé(s) le : jeudi 17 juin 2010 - 23:46:07

Identifiants

  • HAL Id : tel-00441557, version 1

Collections

Citation

Matthieu Geist. Optimisation des chaînes de production dans l'industrie sidérurgique : une approche statistique de l'apprentissage par renforcement. Mathématiques [math]. Université de Metz, 2009. Français. <tel-00441557>

Partager

Métriques

Consultations de
la notice

623

Téléchargements du document

6860