Complementary Roles of the Rat Prefrontal Cortex and Striatum in Reward-Based Learning and Shifting Navigation Strategies Mehdi Khamassi
Total Page:16
File Type:pdf, Size:1020Kb
Complementary roles of the rat prefrontal cortex and striatum in reward-based learning and shifting navigation strategies Mehdi Khamassi To cite this version: Mehdi Khamassi. Complementary roles of the rat prefrontal cortex and striatum in reward-based learning and shifting navigation strategies. Cognitive Sciences. Université Pierre et Marie Curie - Paris VI, 2007. English. tel-00688927 HAL Id: tel-00688927 https://tel.archives-ouvertes.fr/tel-00688927 Submitted on 18 Apr 2012 HAL is a multi-disciplinary open access L’archive ouverte pluridisciplinaire HAL, est archive for the deposit and dissemination of sci- destinée au dépôt et à la diffusion de documents entific research documents, whether they are pub- scientifiques de niveau recherche, publiés ou non, lished or not. The documents may come from émanant des établissements d’enseignement et de teaching and research institutions in France or recherche français ou étrangers, des laboratoires abroad, or from public or private research centers. publics ou privés. Complementary roles of the rat prefrontal cortex and striatum in reward-based learning and shifting navigation strategies: Electrophysiological and computational studies, application to simulated autonomous robotics. Mehdi KHAMASSI PhD thesis – Université Pierre et Marie Curie (Paris Universitas) 2007 Speciality COGNITIVE SCIENCE Presented on september 26th 2007, in presence of the jury: Pr. Alain Berthoz Examinator LPPA, Collège de France Pr. Philippe Bidaud President of the jury ISIR, Université Paris 6 Dr. Kenji Doya Reviewer IRP, Okinawa Institute of Sci. and Tech. Dr. Agnès Guillot Thesis director LIP6/ISIR, Université Paris X Pr. Cyriel Pennartz Examinator SILS, Universiteit van Amsterdam Dr. Bruno Poucet Reviewer LNC, CNRSUniversité de Provence Dr. Sidney Wiener Thesis director LPPA, CNRSCollège de France Page : 1 / 196 Page : 2 / 196 TITLE Complementary roles of the rat prefrontal cortex and striatum in rewardbased learning and shifting navigation strategies. ABSTRACT Many mammals can behave according to different navigation behaviors, defined as « strategies » which, although not systematically requiring conscious processes, depend on the specific task they are required to solve. In certain cases, if a visual cue marks the goal location, the agent can rely on a simple stimulusresponse (SR) strategy. In contrast, other tasks require the animal to be endowed with a representation of space that allows it to locate itself and to locate goals in the environment. In order to efficiently navigate, the animal not only should be able to learn and exhibit these types of strategies, but it should also be able to select which strategy is the most appropriate to a given task conditions in order to shift from one strategy to the other to optimize outcomes. The present work employs a multidisciplinary approach (e.g. behavior, neurophysiology, computational neuroscience and autonomous robotics) to study the roles of the rat prefrontal cortex and striatum in learning and shifting navigation strategies, and their possible application to robotics. It aims more particularly at investigating the respective roles of the medial prefrontal cortex (mPFC) and of different parts of the striatum (DLS :dorsolateral ; VS: ventral) in these processes, and the nature of their interactions. The experimental work presented here consisted in : (1) studying the role of the striatum in SR learning by : (a) analyzing electrophysiological data recorded in the VS of rats performing a rewardseeking task in a plusmaze; (b) designing an ActorCritic model of SR learning where VS is the Critic which drives learning, whereas DLS is the Actor which memorizes SR associations. This model is applied to robotics simulations, and compared with existing models in a virtual plus maze; (2) studying the role of mPFC in strategy shifting by means of electrophysiological recordings in the mPFC of rat performing a task requiring such kind of shifts. The principal results of this work suggest that : (1) In the SR framework: (a) as in primates, the rat VS shows a reward anticipation activity coherent with the ActorCritic theory; (b) these reward anticipations can be combined with selforganizing maps in an Actor Critic model that gives a better performance than previous models in a virtual plusmaze, and that shows generalization abilities potentially applicable for the field of autonomous robotics; (2) the rat mPFC seems to play a role when the animal's current strategy has poor reward yields, prompting learning of another strategy. Moreover, population activity in mPFC changes rapidly in correspondence with shifts in the animal’s tasksolving strategy, possibly underlying the contribution of this brain area to flexible selection of behavioral strategies. In conclusion the results are discussed in the framework of previous behavioral, physiological and modeling studies. We propose a new architecture of the rat prefrontostriatal system, where subterritories of the striatum learn concurrent navigation strategies, and where the medial prefrontal cortex helps decide at any given moment which strategy dominates for behavior. Keywords: prefrontal cortex; striatum; navigation strategies; learning; shifting; TDlearning; reward; ActorCritic model. Page : 3 / 196 TITRE Rôles complémentaires du cortex préfrontal et du striatum dans l'apprentissage et le changement de stratégies de navigation basées sur la récompense chez le rat. RÉSUMÉ Les mammifères ont la capacité de suivre différents comportements de navigation, définis comme des « stratégies » ne faisant pas forcément appel à des processus conscients, suivant la tâche spécifique qu'ils ont à résoudre. Dans certains cas où un indice visuel indique le but, ils peuvent suivre une simple stratégie stimulusréponse (SR). À l'opposé, d'autres tâches nécessitent que l'animal mette en oeuvre une stratégie plus complexe basée sur l'élaboration d'une certaine représentation de l'espace lui permettant de se localiser et de localiser le but dans l'environnement. De manière à se comporter de façon efficace, les animaux doivent non seulement être capables d'apprendre chacune de ces stratégies, mais ils doivent aussi pouvoir passer d'une stratégie à l'autre lorsque les exigences de l'environnement changent. La thèse présentée ici adopte une approche pluridisciplinaire – comportement, neurophysiologie, neurosciences computationnelles et robotique autonome – de l'étude du rôle du striatum et du cortex préfrontal dans l'apprentissage et l'alternance de ces stratégies de navigation chez le rat, et leur application possible à la robotique. Elle vise notamment à préciser les rôles respectifs du cortex préfrontal médian (mPFC) et de différentes parties du striatum (DLS :dorsolateral ; VS : ventral) dans l’ensemble de ces processus, ainsi que la nature de leurs interactions. Le travail expérimental effectué a consisté à : (1) étudier le rôle du striatum dans l'apprentissage SR en : (a) analysant des données électrophysiologiques enregistrées dans le VS chez le rat pendant une tâche de recherche de récompense dans un labyrinthe en croix ; (b) élaborant un modèle ActorCritic de l'apprentissage SR où le VS est le Critic qui guide l'apprentissage, tandis que le DLS est l'Actor qui mémorise les associations SR. Ce modèle est étendu à la simulation robotique et ses performances sont comparées avec des modèles ActorCritic existants dans un labyrinthe en croix virtuel ; (2) Dans un deuxième temps, le rôle du striatum dans l'apprentissage de stratégies de type localisation étant supposé connu, nous nous sommes focalisés sur l'étude du rôle du mPFC dans l'alternance entre stratégies de navigation, en effectuant des enregistrements électrophysiologiques dans le mPFC du rat lors d'une tâche requiérant ce type d'alternance. Les principaux résultats de ce travail suggèrent que : (1) dans le cadre SR : (a) comme chez le singe, le VS du rat élabore des anticipations de récompense cohérentes avec la théorie ActorCritic ; (b) ces anticipations de récompense peuvent être combinées avec des cartes auto organisatrices dans un modèle ActorCritic obtenant de meilleures performances que des modèles existants dans un labyrinthe en croix virtuel, et disposant de capacités de généralisation intéressantes pour la robotique autonome ; (2) le mPFC semble avoir un rôle important lorsque la performance de l'animal est basse et qu'il faut apprendre une nouvelle stratégie. D'autre part, l'activité de population dans le mPFC change rapidement, en correspondance avec les transitions de stratégies dans le comportement du rat, suggérant une contribution de cette partie du cerveau dans la sélection flexible des stratégies comportementales. Nous concluons ce manuscrit par une discussion de nos résultats dans le cadre de travaux précédents en comportement, électrophysiologie et modélisation. Nous proposons une nouvelle architecture du système préfronto striatal chez le rat dans laquelle des sousparties du striatum apprennent différentes stratégies de navigation, et où le cortex préfrontal médian décide à chaque instant quelle stratégie devra régir le comportement du rat. Mots clés : Cortex préfrontal ; striatum ; stratégies de navigation ; apprentissage ; alternance ; TDlearning ; récompense ; modèle ActorCritic. Page : 4 / 196 Acknowledgements I wish to express my deep gratitude to the many people who, in one way or another, have contributed to the achievement of this thesis1. First of all, I would like to thank the members of the thesis committee,