Bandits Multi-bras avec retour d'information non-conventionnelle

Pratik Gajane 1
1 SEQUEL - Sequential Learning
Inria Lille - Nord Europe, CRIStAL - Centre de Recherche en Informatique, Signal et Automatique de Lille (CRIStAL) - UMR 9189
Abstract : Dans cette thèse, nous étudions des problèmes de prise de décisions séquentielles dans lesquels, pour chacune de ses décisions, l'apprenant reçoit une information qu'il utilise pour guider ses décisions futures. Pour aller au-delà du retour d’information conventionnel tel qu'il a été bien étudié pour des problèmes de prise de décision séquentielle tels que les bandits multi-bras, nous considérons des formes de retour d’information partielle motivées par des applications pratiques. En premier, nous considérons le problème des bandits duellistes, dans lequel l'apprenant sélectionne deux actions à chaque pas de temps et reçoit en retour une information relative (i.e. de préférence) entre les valeurs instantanées de ces deux actions. En particulier, nous proposons un algorithme optimal qui permet à l'apprenant d'obtenir un regret cumulatif quasi-optimal (le regret est la différence entre la récompense cumulative optimale et la récompense cumulative constatée de l’apprenant). Dans un second temps, nous considérons le problème des bandits corrompus, dans lequel un processus de corruption stochastique perturbe le retour d’information. Pour ce problème aussi, nous concevons des algorithmes pour obtenir un regret cumulatif asymptotiquement optimal. En outre, nous examinons la relation entre ces deux problèmes dans le cadre du monitoring partiel \textit{(partial monitoring)} qui est un paradigme générique pour la prise de décision séquentielle avec retour d'information partielle.
Complete list of metadatas

Cited literature [114 references]  Display  Hide  Download

https://tel.archives-ouvertes.fr/tel-01706640
Contributor : Preux Philippe <>
Submitted on : Thursday, February 22, 2018 - 8:10:41 AM
Last modification on : Friday, May 17, 2019 - 11:39:17 AM

File

phd-gajane.pdf
Files produced by the author(s)

Identifiers

  • HAL Id : tel-01706640, version 2

Citation

Pratik Gajane. Bandits Multi-bras avec retour d'information non-conventionnelle . Artificial Intelligence [cs.AI]. Université de Lille, 2017. English. ⟨tel-01706640v2⟩

Share

Metrics

Record views

258

Files downloads

210