Contribution d'un modèle computationnel de sélection de stratégies de navigation aux hypothèses relatives à l'apprentissage spatial - TEL - Thèses en ligne Accéder directement au contenu
Thèse Année : 2010

Contribution of a computational model of selection of navigational strategies concerning hypotheses about spatial learning

Contribution d'un modèle computationnel de sélection de stratégies de navigation aux hypothèses relatives à l'apprentissage spatial

Résumé

A large number of experiments have shown the capacity of mammals, in particularly studies involving rats, to use several methods of navigation to reach a goal. These so-called "strategies" are chosen depending on the availability of different kinds of landmarks within the environment. These landmarks can be situated either close to or far from the goal (resp. proximal and distal landmarks). In the last few decades, studies have been particularly focused on the memory systems engaged in the use of these strategies, the dominant hypothesis being that systems learn in parallel distinct strategies that may rely or not on the construction of an internal representation of the environment. Some strategies -based on the use of visible landmarks- will be learnt in a relatively inflexible way (i.e. procedural learning) and presumably involve the dorsolateral striatum. Other strategies involve a hippocampus-dependant training phase and are based on the preliminary construction of a "cognitive map" of the environment (i.e. declarative learning), by integrating in a redundant manner the available landmarks. This map is learnt independently of the position of the goal providing more flexibility to this type of strategy since it would be able to quickly relocate the target, if it is moved to another location. The hypothesis of such a spatial representation (a theory known as "cognitive") and of parallel systems having different learning capacities is supported by comparisons between intact animals with lesioned animals of the neural structures concerned. However this hypothesis can be reappraised with respect to the nature of the learning involved : the construction and use of a spatial representation is not supported by a number of observations showing that spatial behaviour is mainly steered by a competition between the available landmarks, thus suggesting the same procedural learning displayed in operating conditioning (a theory known as "associative"). Experiments show that certain landmarks can be overshadowed or blocked by others according to whether they were learned in parallel or sequentially, questioning the possibility of integrating these landmarks in a redundant manner. According to this theory, navigation would be above all learned and managed in a unitary manner, and thus prevent the emergence of several strategies learned in parallel. We hypothesize that these two conflicting points of view can be explained by a modular framework of navigation, allowing differentiated and parallel learning of various strategies and a selection mechanism that could favor either the competition between landmarks, or the necessity of their integration. We design a computational model which puts in place a rule of selection between strategies independent of their learning method and which can privilege either certain landmarks or the use of a spatial representation constructed with several landmarks. This model selects among strategies that are learnt online by algorithms of procedural learning (learning by reinforcement) and declarative learning (graph search). Learning of these strategies takes place in parallel and can promote a cooperation between the two strategies, as one strategy can learn the behaviours of the other. Alternatively, the selection mechanism can prompt competitive interactions, since its choices are based on an associative type of learning. The existence of such a selection module, independent of strategy learning systems, is supported by certain recent studies showing the implication of prefrontal cortex structures and basal ganglia within this function. We test the model by reproducing experiments performed in the Morris Water Maze, which has been extensively used for the last thirty years to study spatial behaviour of rats. We have limited our analyses to, on the one part, interactions between guidance strategies (directly using visual cues) and place strategies (using a cognitive map constructed from "hippocampal" place cells) ; and on the other part to the seeking of a single goal, dependent on a single motivational system. After assessing the model behaviour in situations where only certain types of landmarks (proximal or distal) are present, we reproduced various experiments in which the mentioned opposing theories have different interpretations with respect to the nature of interaction of these types of landmarks. Our results provide a set of explanations, that reconcile both the neurobiological and behavioural observations. Moreover, we also provide behavioural predictions which will allow neurobiologists to appraise the usefulness of this model. We propose notably that the use of a strategy based on a cognitive map (integration of landmarks) cannot be disregarded, as it shows itself to be required to explaining certain effects of blocking or overshadowing characteristic of the associative theory. We also suggest that the existence of two guidance strategies, one having an egocentric framework (learning routes leading to the target according to the orientation of the body), the other an allocentric framework (learning a general direction leading to the target according to an estimated absolute reference landmark) must be taken into account in order to generate competitive or cooperative interactions observed between systems of navigation. We also show that an integration of landmarks is not necessarily used by animals, as an allocentric guidance strategy, even based on a competition of landmarks, can be sufficient in certain contexts to explain their observed behaviour. To summarise, the architecture of the proposed navigational model, including parallel systems of procedural learning and declarative learning selected through a procedural mechanism, is able to reconcile hypotheses issued from associative and cognitive theories of spatial behaviour. This study also contributed to the field of robotics since our model was able to control a navigating robot and to select in line the most effective strategies to reach available resources.
De nombreuses expériences montrent la capacité des mammifères, particulièrement étudiée chez le rat, à pouvoir utiliser plusieurs types de navigation pour rejoindre un but. Ces stratégies seraient utilisées en fonction de la disponibilité de différents types d'amers présents dans l'environnement, situés à la proximité ou loin du but (resp. amers proximaux et distaux), ainsi que d'autres facteurs, comme la motivation, l'expérience ou le stress. Les études ont notamment porté ces dernières décennies sur les systèmes de mémoires engagés dans l'utilisation de ces stratégies, l'hypothèse dominante étant que des modules apprennent en parallèle des types distincts de stratégies, reposant ou non sur la construction d'une représentation interne de l'environnement. Les unes, reposant sur l'utilisation d'amers visibles, seraient apprises de manière relativement inflexible (apprentissage procédural) et impliqueraient notamment le striatum dorso-latéral. D'autres impliqueraient la formation hippocampique et reposeraient sur la construction préalable d'une "carte cognitive" de l'environnement (apprentissage déclaratif), en intégrant de manière redondante les amers disponibles. Cette carte, apprise indépendamment de la position du but, confèrerait une flexibilité importante à ce type de stratégies puisqu'elle aurait la capacité de repositionner rapidement le but, si celui-ci venait à être déplacé. L'hypothèse d'une telle représentation spatiale (théorie dite "cognitive") et de systèmes parallèles ayant des capacités différentes d'apprentissage est supportée par des comparaisons entre animaux intacts et animaux ayant des lésions des structures nerveuses concernées, de même que des expériences impliquant des manipulations de l'environnement (e.g., déplacement d'amers). Cette hypothèse est toutefois remise en question par la nature de l'apprentissage impliqué : la construction d'une représentation spatiale et son utilisation est contraire à nombre d'observations tendant à montrer que le comportement spatial est avant tout dirigé par une compétition entre les amers disponibles, résultant du même apprentissage procédural que celui mis en oeuvre dans un conditionnement opérant (théorie dite "associative"). Des expériences démontrent en effet que certains amers peuvent être occultés ou bloqués par d'autres selon qu'ils sont appris parallèlement ou séquentiellement, et remettent ainsi en question la possibilité d'intégrer ces amers de manière redondante. Selon les tenants de cette théorie, la navigation serait donc avant tout apprise et gérée de manière unitaire, empêchant ainsi l'émergence de plusieurs stratégies apprises en parallèle. Nous adoptons ici l'hypothèse, déjà formulée par d'autres neurobiologistes, que ces deux points de vue antagonistes pourraient s'expliquer par une gestion modulaire de la navigation, permettant des apprentissages différenciés et parallèles de plusieurs stratégies, et dont le mécanisme de sélection pourrait favoriser soit les compétitions entre amers, soit la nécessité de leur intégration. Cette thèse vise à concevoir un modèle computationnel de sélection de stratégies de navigation qui concilie les deux théories ou, a minima, y apporte des éléments de débats. La conception du modèle computationnel proposé dans ce travail et sous-tendu par cette hypothèse a nécessité de fait la mise en place d'une règle de sélection ne dépendant pas de la nature de l'apprentissage des stratégies et pouvant privilégier soit certains amers, soit l'utilisation d'une représentation spatiale construite avec plusieurs amers. Ce modèle sélectionne en ligne des stratégies apprises par des algorithmes d'apprentissage procéduraux (apprentissage par renforcement) et déclaratifs (recherche de graphe). Ces acquisitions s'effectuent en parallèle et peuvent favoriser une coopération entre les stratégies, car chacune peut apprendre des comportements de l'autre. Le module de sélection de ces stratégies peut inciter des interactions compétitives, car il effectue ses choix sur la base d'un apprentissage de type associatif. L'existence d'un tel module de sélection, indépendant des systèmes d'apprentissage des stratégies, est corroboré par certains travaux récents démontrant l'implication de structures du cortex préfrontal et des ganglions de la base dans cette fonction. Le dispositif expérimental utilisé est la piscine de Morris, dans laquelle le comportement spatial de rats a été étudié de façon approfondie depuis une trentaine d'années. Nous avons limité nos analyses, d'une part, aux interactions entre stratégies de guidage (utilisant directement des indices visuels) et stratégies de lieu (utilisant une représentation spatiale construite à partir de cellules de lieu simulées par un modèle d'hippocampe intégré au modèle) et, d'autre part, à la recherche d'un seul but, dépendant d'un seul système motivationnel. Après avoir démontré le comportement du modèle dans des situations où seuls certains types d'amers (proximaux ou distaux) sont présents, nous avons reproduit diverses expériences dans lesquelles l'influence de l'interaction de ces types d'amers a donné lieu à des interprétations issues de l'une ou de l'autre des deux théories antagonistes. Nous y apportons un corpus d'explications, conciliant à la fois les données neurobiologiques et comportementales, ainsi que des prédictions comportementales qui permettront aux neurobiologistes d'estimer l'utilité de ce modèle. Nous avançons notamment que l'utilisation d'une stratégie fondée sur une carte cognitive (intégration d'amers) ne peut pas être écartée, car elle se révèle indispensable pour expliquer certains effets de blocage ou d'occultation caractéristiques de la théorie associative. Nous suggérons aussi que l'existence de deux stratégies de guidage, l'une ayant un cadre de référence égocentré (apprenant les trajets conduisant au but en fonction de l'orientation du corps), l'autre un cadre de référence allocentré (apprenant une direction générale conduisant au but en fonction d'un repère absolu) doit nécessairement être prise en compte pour générer certaines interactions compétitives ou coopératives observées entre systèmes de navigation. Nous montrons aussi qu'une intégration d'amers n'est pas forcément utilisée par les animaux car une stratégie de guidage allocentrée, même fondée sur une compétition d'amers, peut être suffisante dans certains contextes pour expliquer leur comportement. En résumé, ce modèle de navigation, associant des systèmes parallèles d'apprentissage procéduraux et déclaratifs et sélectionnés par un mécanisme procédural, est en mesure de proposer une architecture computationnelle qui pourrait concilier les hypothèses issues des théories associative et cognitive du comportement spatial. Ce travail a également une retombée dans le domaine de la robotique, proposant par cette architecture une augmentation de l'autonomie dans la navigation d'un système artificiel, pouvant sélectionner en ligne les stratégies les plus efficaces pour atteindre ses ressources.
Fichier principal
Vignette du fichier
Laurent_dollA_.pdf (10.54 Mo) Télécharger le fichier

Dates et versions

tel-00647199 , version 1 (01-12-2011)

Identifiants

  • HAL Id : tel-00647199 , version 1

Citer

Laurent Dollé. Contribution d'un modèle computationnel de sélection de stratégies de navigation aux hypothèses relatives à l'apprentissage spatial. Automatique / Robotique. Université Pierre et Marie Curie - Paris VI, 2010. Français. ⟨NNT : ⟩. ⟨tel-00647199⟩
254 Consultations
341 Téléchargements

Partager

Gmail Facebook X LinkedIn More