An ordinal generative model of Bayesian inference for human decision-making in continuous reward environments

Gabriel Sulem

Résumé

Our thesis aims at understanding how human behavior adapts to an environment where rewards are continuous. Many works have studied environments with binary rewards (win/lose) and have shown that human behavior could be accounted for by Bayesian inference algorithms. A Bayesian algorithm works in a continuous environment provided that it is based on a “generative” model of the environment, which is a structural assumption about environmental contingencies. The issue we address in this thesis is to characterize which kind of generative model of continuous rewards characterizes human decision-making. One hypothesis is to consider that each action attributes rewards as noisy samples of the true action value, typically distributed as a Gaussian distribution. We propose instead a generative model using assumptions about the relationship between the values of the different actions available and the existence of a reliable ordering of action values. This structural assumption enables to simulate mentally counterfactual rewards and to learn simultaneously reward distributions associated with all actions. To validate our model, we ran three behavioral experiments on healthy subjects in a setting where actions’ reward distributions were continuous and changed across time. Our proposed model described correctly participants’ behavior in all three tasks, while other competitive models, including Gaussian failed. The proposed model extends the implementation of Bayesian algorithms and establishes which rewards are “good” and desirable according to the current context. It answers to evolutionarily constraints by adapting quickly, while performing correctly in many different settings.

Notre travail porte sur l'adaptation du comportement humain dans un environnement où les récompenses obtenues sont distribuées sur une échelle continue. Les travaux précédents se sont principalement intéressés aux cas de récompenses binaires (de type gagné/perdu) et ont montré qu'un algorithme d'apprentissage Bayésien pouvait rendre compte du comportement. Les algorithmes Bayésiens ne marchent pas dans un environnement continu à moins d'utiliser un modèle génératif (une série d'axiomes permettant de cadrer l'interprétation des observations). A l'inverse les algorithmes de renforcement s'y comportent bien car ils peuvent efficacement s'ajuster aux moyennes de distributions de récompense. Que fait donc l'humain ? Un modèle génératif usuel considère que les distributions de récompense associées à chaque action sont Gaussiennes. Un petit nombre d'observations permet de les caractériser en inférant leur moyenne et écart type. Nous proposons un modèle plus général postulant l'existence d'un classement stable de la valeur des différentes actions, ce qui permet d'imaginer la récompense fictive qui aurait été attribuée par les actions non choisies. Pour séparer ces deux modèles ainsi que le renforcement, nous avons construit 3 expériences comportementales dans lesquelles les distributions de récompenses sont bimodales et continues. Notre modèle rend compte du comportement des sujets à l’inverse du modèle Gaussien ou du renforcement. Notre modèle répond à des contraintes évolutionnistes car il s’adapte rapidement dans un grand nombre de contextes, y compris ceux ou les axiomes du modèle génératif ne sont pas respectés, pour déterminer à chaque fois quelles récompenses sont désirables.

An ordinal generative model of Bayesian inference for human decision-making in continuous reward environments

Modélisation de la prise de décision humaine dans le cas général d'environnements attribuant des récompenses non-binaires, par un algorithme ordinal d'inférence Bayésienne

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager