O'Reilly, RC, Frank, MJ, Hazy, TE and Watz, B. (2007) PVLV: The Primary Value and Learned Value Pavlovian Learning Algorithm. Behavioral Neuroscience, 121, pp. 31-49.

Abstract: model PVLV p comprendre reward predictive firing properties of DA neurons; alternative à TD, plus bio et plus robuste à variabilité. PV p primary rewards; LV p conditioned stimuli. PV = RW et delta rule; situé ds ventral striatum/NAcc qui inhibe DA cells. LV ds central nucleus of amydgala et excite DA neurons. Mq PVLV explique et prédit des faits, comme first et second-order conditioning différents (TD peut pas). Overall, plausible framework for understanding neural basis of reward learning.

Intro: Difficile faire bon modele de Pavlovian learning. Lien avec instrumental. RW théorie dominante: app basé sur discrepancy actual et prediction = reward prediction error. cf TD. cf aussi midbrain DA neurons avec short phasic bursts for primary reward puis avec app, fire at the onset of CS and no longer to the reward. et (cf fig 1) a dip in DA (below baseline) if reward omitted et a priori pas de backprop du burst comme prévu par TD et aussi Y un moment (à la fin de l'app) où on a les deux (burst p la reward et pour le CS) . mais mécanisme cerebral ss-jacent mal connu. Cette période d'app critique semble avoir lieu en amont des midbrain DA neurons, mais où?

PVLV = multicomponent model of Pavlovian learning. PVLV provides a direct mapping onto neural substrates, composed of two subsystems Primary Value et Learned Value.

  • PV system engaged by primary reward, US, learns to expect occurrence of a given US and inhibit DA burst.
  • LV system learns CS associated with primary rewards and drives DA burst at CS onset.

PV et LV de plus divisés en subcomponents excitatory et inhibitory:

  • PVe: reward driven excit proj de lateral hypo vers SNc et VTA
  • PVi: ventral striatum/NAcc vers SNc-VTA; fire just in advance of primary rewards
  • LVe: projections de central nucleus de amygd (CNA) vers SNc-VTA (CNA learn to associate CS with reward); drive excitatory DA bursts at CS onset.
  • LVi aussi de ventral striatum/NAcc: slowly learns to inhibit LVe drive on DA neurons. [quand ca a été appris ds striatum cad qd critiq a modifié app de l'acteur].

D'autres centres jouent un role ds RL: PFC, hippo (fournissant trace d'éligibilité). WM maintenue crucial p trace conditioning paradigms. ici version simple; cf model complet avec PFC oreilly06. Voir aussi ref lien cervelet et aspects temporels; basolat nucleus d'amyg et second-order cond.

A la difference de TD: PVLV predit pas de higher-order condit. PVLV aussi robust à variabilité interval CS-US et pas TD. Aussi distingue delay et trace conditioning (pas trop TD).

The PVLV algorithm

commence avec RW: app basé sur discrepency Delta = actual-prediction outcome. Avec predicted outcome = sigma W.sensory (presynatiq). Avec variation W = Delta.presynaptiq. Marche bien p app primaire (on apprend que US annonce primary récompense) mais pas sur CS car CS pas au même moment que primary recompense. Algo TD corrige ce pb avec cadre de prediction temporellement étendu: objectif de prédire future reward et pas juste present reward. Delta à t permet d'apprendre sur presynaptiq (sensory input) à t-1. Donc réaction en chaine où reward prediction error propagates earlier and earlier in time to the earliest reliable predictor. Donc Delta (=DA burst) can move earlier at the onset of the CS.

PVLV a une approche differente: RW retenu p PV system (Primary Value) et un autre system LV créé p reward assoc for CS. Y motivation bio mais aussi computational advantages: permet plus de robustesse p variabilité assoc CS-US alors que ds TD, chain robuste comme son lien le plus faible (modulo trace d'éligibilité TD(lambda) avec decay exponentiel). PVLV n'utilise pas de chaining. Permet d'être plus robuste p cas où il se passe un tps (en plus variable) entre CS et US.

PV system

RW avec parties inhib et excit:

Delta = PVe-PVi = current - predicted reward et predicted reward = PVi apprend à annuler la récompense cad sa modif apprise de poids selon Delta le fait ressembler à actual reward. Donc PVe cablé (l'US) et PVi appris avec règle RW: inhibe PVe au fur et à mesure que la prédiction de la récompense est apprise. Donc PVi intègre les prédictions de récompense et leur timing. On retrouve compt DA.

LV system

utilise aussi RW mais avec qlq differences qui permettent de signaler reward asso at the time of CS onset. Aussi avec partie excit et inhib: LVe learns CS assoc and drive excitatory DA burst at the CS onset: apprend seulement qd primary reward present or expected (in contrast, PVi learns all the time). donc LVe apprend que si PVe ou PVi au dessus d'un seuil et ds ce cas Delta = PVe-LVe. cf p 34 p analyse complète: laisse le dernier mot à primary reward. c'est PVe qui drive LV learning. implications ds conditioning phenomena.

LVi est à LVe ce que PVi est à PVe: apprend à cancel DA bursts qd CS learned. LVi comme LVe mais utilise a slower learning rate. LVdelta = LVe-LVi (comme PV). Donc LVdelta encode discrepency entre ce qui a été bien appris avant et ce qui vient d'être appris (pour des CS plus récents ou quand l'assoc du CS devient moins forte: LVdelta peut devenir negative. En fait, le mécanisme de LVi surtout utile p app plus complexes genre WM.

combinaison des systems PV et LV: Y donc deux signaux delta de PV et LV à combiner p signal DA global. PV marche qd Y reward present or expected (par PV); qd Ypas reward, il peut tjs y avoir LV. (cf differencier aussi qd LV apprend sur base reward reelle ou expectation de PV (eq 7). PV apprend continument occurrence reward primaire (presence et absence), apprend to expect reward delivery and to cancel the DA burst (ie the PV delta value). Reward also trains the LVsystem p augmenter les poids p le CS p pouvoir declencher avec CS onset un DA burst (LV delta value); donc time gap entre CSonset et US est bridgé par la CS-US sans recours a prediction explicite genre TD. cf plus bas biological mapping de PVLV.

additional mechanisms à souligner: PVi avec un timing signal p declencher at the expected time of actual reward input (donc PVi calculé avant mais envoyé seulement au bon moment p annuler le PVe). Aussi présence d'un timing signal en rampe (venant du cervelet? mais Y aussi model avec venant des BG) p mesurer interval. Aussi mecanisme de novelty detection/familiarity suppression pq le LV system ne continue pas a declenche DA pdt durée entière du CS. Juste l'onset du CS declenche LV firing et ensuite decroit même qd CS reste. Une sol possible = habituation mécanisme on the LV system (cf p ex Brown) mais Y des pbs de sur-generalisation ou empecher autres assoc. Ici fait avec synaptic depression mecanisme p faire habituation ds LV seulement sur stimulus (que active synapses depressed); avec ce mécanisme, LVe accomodate à sensory input csts et repond que à chgts.

Appli to conditioning data:

fin p 35

model très proche de Brown99 à voir

talk Bassem club BG 30/09/10

PVe est pavlov cablé. PVi apprend à annuler cette prédiction qd la récompense arrive

cf fig 3: tps spatialisé et PVi apprend le pattern spatial (mais tps spatialisé) qui reproduit PVe = pavlov

LVe apprend à créer un burst de DA au CS; PVi apprend que le US arrive 2 sec après le CS et qu'il faut à ce moment là inhiber le burst de DA qui sinon aurait été declenché par PVe de façon cablée.

cf fig 2 avec apparition PVi qui va annuler activité PVe et apparition LVe à dte qui annuler app et à gche p annuler activité. Ces deux pics pourraient correspondre à activité phasiq du CS

p second order conditioning, pas de backward chaining comme ds TD (qui peut faire du higher order conditioning de degré supérieur à 2). ici peut faire seulement 2nd ordre


Page last modified on April 15, 2011, at 09:43 AM