九九十九久久国产视频,无码中文字幕乱在线观看,日韩精品无码卡一卡二

【芥末翻】是芥末堆全新推出的一檔學術欄目，由芥末堆海外翻譯社群的小伙伴們助力完成。我們致力于將全球經典或是前沿的教育理念、教育技術、學習理論、實踐案例等文獻翻譯成中文，并希望能夠通過引進這類優(yōu)質教育研究成果，在全球教育科學的推動下，讓更好的教育來得更快！

圖片來源：谷歌圖片；論文來源：Social learning through prediction error in the brain, npj Science of Learning 2, Article number: 8(2017)；作者：Jessica Joiner 1, Matthew Piva 2,3 , Courtney Turrin 1 and Steve W. C. Chang. 譯者：馬亮.

了解這個世界對于生存和成功至關重要。作為一類社會物種，了解他人是融入社會的必要組成部分，并最終有助于提高進化的適應性。人類和非人類動物如何發(fā)掘其他動物的內在狀態(tài)和經歷，長期以來都是傳統(tǒng)發(fā)展心理學在涉及自我和他人的學習和決策領域的研究熱點。本綜述中，研究者探究了心理學如何概念化表征他人的過程及神經科學如何揭示強化學習原理，從代表自我和他人獎勵相關信息的角度探索社會學習潛在的神經機制。特別是，研究者討論了多個大腦結構中的自我參照和他人參照的獎勵預測誤差類型，探究了如何有效運用強化學習算法調解社會學習。基于預測的大腦計算原理在自參照信息和其他參照預測誤差信息之間可能明顯地有保守成分，這也意味著研究有章可循。

表征他人的歷史觀點

了解世界并做出適應性決策是認知的關鍵特征。人類和非人類動物也正是利用這一重要連接來改造環(huán)境并求得生存。如果動物并非獨處一隅，即與其它同類生活在同一群落，決策就更加復雜多變。研究者非常了解人類和非人類動物如何從自己的行為和結果中學習，熟知這些自參照預測誤差在大腦中再現，然而卻對他人大腦計算原理的探尋方式知之甚少。在這篇綜述中，研究者研究了大腦中存在代表他人行為和獎勵結果的其他參考預測誤差。

首先嘗試了解他人這一概念的學科之一是發(fā)展心理學，相關研究人員經常探究嬰兒了解世界的方式。理論-理論觀點指出，兒童就像小科學家一樣驗證因果關系，他們不斷收集世界的數據，再對收集到的數據做出預測，并加以驗證。在觀察、直接和替代經驗的基礎上，他人可以被視為學習對象。

相反，模擬理論假設人們通過自參照理解他人，運用個人思維過程機制將知識投射到他人行為。隨后將這種模擬他人的概念與個體皮層運動神經元的鏡像神經元活動聯(lián)系起來，進而也解釋了獼猴通過觀察某一動作后做出相同動作。

值得注意的是，這些理論針對其他參照信息在大腦的表征過程做出了不同預測。6 根據一位仿真學家的敘述，“他人”這一概念來源于個人自我意識，也就是以自我為中心。關于他人的概念發(fā)端并依賴于自參照的自我中心機制。然而，理論-理論指出處理和評估他人的信息，如同從周圍環(huán)境獲取其他參照信息一樣，都可能會遇到多中心型系統(tǒng)。過去這兩個概念表達了大腦表征他人的核心問題。

觀察學習與社會學習

人類和非人類動物都依靠觀察來認知世界。鼠、鳥、黑猩猩通過觀察其他同類，了解他們在特定環(huán)境或社會背景下的行為表現。最早的觀察學習形式中就有模仿。模仿學習通常是未成熟生物體模仿規(guī)范的運動行為。嬰幼兒和幼猴在發(fā)育早期模仿照顧者所有面部表情，只要成年人伸舌頭，他們也會反射性地伸出舌頭，這很可能是大腦通過簡單運動反應來提升社交技能的一個例證。在觀察學習或更廣泛的社會學習研究中，兒童的模仿行為是最典型的例子。

學習者觀察智能體行為時，社會學習就此發(fā)生。而且，無需任何實踐或直接重要強化，學習者即可完成之前所觀行為。這表明學習者能夠通過觀察其他成熟的結果，也可能通過替代強化獲得新知或技能。社會學習的功效取決于幾個社會變量。例如，觀察者和被觀察者之間的相似性可以提高學習效率。此外，共情和社會學習之間有著密切聯(lián)系。共情會對對方特征信息十分敏感，例如觀察者和被觀察者是否平等，或被觀察者屬于觀察者圈內還是圈外。此外，在靈長類動物中，社會地位直接影響基于其他同類的這類學習，其中地位高的個體更易被模仿。

人類的觀察學習可能是建立社會和文化規(guī)范的核心。在班杜拉（Bandura）行為建模的經典研究中，如果兒童看到成人模型對大型玩偶的攻擊性行為，當兒童有機會與同一玩偶互動，也會表現出相同的攻擊性行為。觀察學習在兒童成長及后來的社會交往和社會認知中發(fā)揮舉足輕重的作用。自我學習和他人學習如何在大腦結構中表征，及自我和他人相關學習信號是否參與相似或迥異的神經計算，皆是社會學習過程中的重要課題。

研究者給本綜述定義的社會學習重點在于觀察學習。在這種學習中，一個主體通過行為觀察及獎勵結果了解另一個主體。然而，社會學習與社會交往本身一樣存在多面性。人們可以了解他人的不同方面，例如個性或心理狀態(tài)。社會學習也可以體現向他人學習的獎勵結果（例如，教師反饋學生作文成績）。

高層次社會認知

了解他人后即可構建其他個體的內心狀態(tài)。解構他人信念的能力稱之為心智理論（ToM）。心智理論可以稱之為了解其他個體最復雜的一種形式，涉及大量其他參照及加工處理。嬰兒可以解讀他人的信念就說明了嬰兒對世界的理解從一開始就非常復雜而豐富，也難怪長期以來人們對心智理論機制的學習興趣十分濃厚。心智理論到底代表單獨的社會過程還是許多廣義過程的融合18，這仍然存在爭論。心智理論往往通過執(zhí)行假想信念任務來衡量，該任務可以19檢測測試者能否在社會模型下對一個物體的位置形成假想認知。低齡段幼兒，甚至如11個月大的嬰兒，竟能解讀他人的內心信念，并且能“通過”假想信念測試20，這表明大腦的參照他人處理功能在人類個體發(fā)育的早期就已出現。

然而，心智理論在非人類動物上的研究結果更加復雜。例如，嬰兒可以通過的假想信念任務，猴子卻無法通過。靈長類動物已經出現運營其他理解方式理解其他同類。猴子通過跟隨注視表現出集體關注。猴子會追隨另一個主體凝視的對象或方向，表明它們可以理解這個主體的視角，或通過固有神經機制反射性，分配自己的注意力來理解其他人的凝視，處理與他人的凝視角度，興趣及價值之間的聯(lián)系。與此類似，研究者已證明猴子和黑猩猩可以理解對一個獨立個體來說什么視覺信息是可被利用的，如果有偷食機會，它們傾向于從沒有視覺接觸的個體開始偷食。這表明即使靈長類動物不一定能模擬其他個體的想法信念，但也理解其有不同的視角。

總而言之，人類和非人類動物都具有復雜的社會認知能力，但其復雜程度可在進化過程中區(qū)分。了解其他參照信息的運轉模式及自我和他人的信念呈現，將進一步協(xié)助我們認識大腦是如何將有關信息升級到更高層次的社會認知。

強化學習原則

無論是人類還是非人類動物，都是以強化學習理論為基礎的各種學習和決策任務的絕佳模型。為了對有機體的行為（特定情境下有機體的行為方式，以及在考慮動機和主觀價值等內部狀態(tài)下進行決策）作出明確和可測試的預測，通過數學模型描述學習和學習成果是一種強有力的方式。27強化學習原則可以用比較簡單細致的規(guī)則來捕捉看似復雜的行為，如著名的Rescorla-Wagner模型。28雖然不同的強化學習模型在不同的認知現象描述方面有所不同，但它們有幾個共同的核心要素，如學習的速度或刺激的顯著性，進而更好地適應學習和具體決策過程。

強化學習根植并應用于工程學和心理學。理查德·貝爾曼（Richard Bellman）致力于研究強化學習的核心基礎，他因貝爾曼最優(yōu)方程和動態(tài)規(guī)劃而聞名于世。強化學習廣受重視的根本原因是，生物體從環(huán)境中收集信息來學習并做出決定，這種方式被強化學習概念化。強化學習需要智能體主體在特定環(huán)境中通過根據不同狀態(tài)或情境做出反應。其他必要組成部分還包括獎勵信號、價值功能和策略。獎勵結果是所有形式強化學習的中心，由智能體主體在環(huán)境中的行動結果構成并形成一定數量。然后智能體主體使用該獎勵結果來計算價值函數，推測特定狀態(tài)/環(huán)境的期望值以及特定狀態(tài)和動作的連接。智能體主體使用這些價值函數來開發(fā)一組優(yōu)先行動，稱為決策。環(huán)境模型是強化學習可選的部分，可以為生物提供狀態(tài)轉換的指導。

貝爾曼為工程應用開發(fā)的動態(tài)規(guī)劃需要一個完整的環(huán)境模型。除了假設未來狀態(tài)29下潛在行為總期望增益之外，這個想法要求智能體主體的行為由此行為期望增益來指導。此原則同樣適用于時間貼現（TD）模型，強化學習模型的主要形式應用于人類和其他動物的心理學研究。時間貼現學習和動態(tài)規(guī)劃存在顯著不同——-時間貼現不需要任何環(huán)境模型。相反，學習通過比較期望獎勵和實際獎勵，在一定的時間過渡之后得到實現。這個差異就是獎勵預測誤差，用于更新值函數，并最終用于智能體與其環(huán)境交互的決策。預測誤差信號確實是原始學習模式的基本屬性。28簡而言之，預測誤差會計算動物在給定的事件或試驗中預期發(fā)生與實際發(fā)生的行為差異。這也可以稱為誤差信號。

大腦預測編碼與強化學習

預測誤差被有效地用作驅動自參照學習的信號。生物體在試驗的基礎上更新自己的行為，以此說明這種期望和結果之間的差異所提供的新信息。特別是計算預期回報與獲得回報之間差異的獎勵預測誤差已被確定為神經生物學中數學學習規(guī)則的重要關聯(lián)知識。

在大腦中編碼的經典型的獎勵預測誤差與時間貼現學習所需的類型一致。由于獎勵對適應性行為的本質屬性，獎勵編碼的區(qū)域是除了參與感覺運動轉換的大腦區(qū)域之外的一些最佳研究區(qū)域。根據經典學說，多巴胺能黑質和被蓋腹側以及背側和腹側紋狀體已被證明是處理獎勵接受和評價的主要區(qū)域，多巴胺與獎勵的關系現在被稱為神經遞質關聯(lián)的最具代表性的行為之一。你可以預見，這些區(qū)域提供了獎勵預測誤差編碼的強有力示例。

在大腦的其他地方也發(fā)現了獎勵預測誤差信號（Reward prediction error signal）。靈長類動物外側韁核神經元編碼關于獎勵結果的互惠信息，與先前描述的中腦多巴胺神經元有關。值得注意的是，外側韁核神經元的活動先于多巴胺神經元的活動，表明外側韁核神經元作為在中腦中檢測到的預測誤差信號的輸入源。此外，對人體的功能磁共振成像( fMRI)揭示了大腦皮質內遍及眾多獎勵相關結構，存在多種預測誤差和其他學習相關信號，表明預測誤差信號是一種廣泛的連接學習和決策的廣義機制。將這些模型應用于界定行為和神經活動的概念化，在學習和決策研究中已證明卓有成效，也許最著名的發(fā)現是中腦多巴胺神經元代表時間貼現獎勵預測誤差（TD reward prediction error）。

如今至少有兩個研究強化學習（RL）的重要神經科學分支仍在繼續(xù)。第一個分支涉及模型無關（基本時間貼現學習）和模型相關（類似于動態(tài)規(guī)劃）學習的神經基質之間的潛在平衡。這些研究共同發(fā)現了模型相關狀態(tài)轉移誤差的神經基質，模型相關的表征是除了紋狀體和腹內側前額皮質中的模型無關預測誤差范圍之外的，以及在模型相關和模型無關的方法之間充當判優(yōu)器的大腦區(qū)域。第二個分支是替代強化，它也可以在強化學習框架中建模，從而說明如何通過運用替代類的預測誤差，將他人的行為用來更新我們自己的學習和決策過程。強化學習可能在關于他人的行為和獎勵的社會學習中加以實現。

強化學習原則中的這種替代性強化將直觀地以相關模型運行，因為在對其他行為主體的潛在思想和未來行動的模型不加以創(chuàng)造和更新的情況下，我們不清楚模型無關的強化學習系統(tǒng)如何盡可能了解另一個行為主體。因此，關于人類如何使用強化學習機制來學習和推斷他人的研究，已經應用了涉及被模擬者的經修改的Q學習框架。盡管強化學習創(chuàng)造了解釋和概念化社會學習的重大機遇，但卻存在可應用于社會認知的其他計算模式。例如，一些人認為，形成強化學習理論基礎的假定強化學習獎勵預測誤差，反而可以被解釋為預期違反或顯著性，特別是與皮質區(qū)域的活動有關。在相對缺乏明確的強化學習原則的情況下，其他專門設計用于通過博弈論方法闡明心智化能力的模型在探索社會行為方面非常成功。這些方法主要包括無限遞歸生成其他行為個體的迭代算法。這些方法不僅解釋了獵鹿博弈中典型的人類行為，而且還發(fā)現了自閉癥譜系障礙患者遞歸社會認知的具體缺陷.

對于要學習的各種不同事件，例如動作值、獎勵值和獎勵定時，可以會出現預測誤差信號。此外，預測誤差不限于獎勵域。預測誤差計算的證明甚至存在于大腦的感覺運動區(qū)域，這些區(qū)域處理諸如小腦和額頁眼動區(qū)（關于預測誤差的類型和相關腦區(qū)，參見表1）的精細調諧動作。因此，批評信號負責糾正大腦各種功能區(qū)域的行為輸出和認知表征，而且認可預測編碼是大腦的關鍵特征的觀點。

隨著人們在描述日益復雜的人類行為方面取得長足進步，試圖將對自我學習和決策的研究納入他人行為的學習和決策范圍中，現已成為一個備受關注的課題。對于社會有機體來說，對特定事物做出適當的反應并正確地預測它們的行為是必要的，這就要求它們依賴于了解彼此，就像它們依賴于了解在何處覓食以生存一樣。正如預期的那樣，了解他人以及自我和他人的表征是由幾個與獎勵相關的大腦結構所傳遞的。

自參照和他人參照強化信號的神經基礎

在本節(jié)中，研究者將討論選定的研究成果，這些成果提供了關于大腦如何在強化學習和決策領域發(fā)出自我參照和其他參照信息信號的新見解。如果適用，研究者將重點關注其他參照預測誤差信號，這些信號與行動和獎勵結果相關，獎勵結果又同社會學習聯(lián)系密切。

大腦紋狀體

神經科學領域的最新進展為運用強化學習機制向他人學習提供了各種支持。雖然紋狀體長期以來一直是大腦中自我參照獎勵信息和預測誤差的焦點，但紋狀體在學習中的作用并不限于自我參照處理。在一項關于多巴胺釋放的觀察性學習和替代性強化的研究中，當觀察到另一只老鼠接受獎勵，相比獎勵品被投放至某個空盒子里時，觀察鼠在腹側紋狀體中發(fā)出更多的聲音并釋放明顯更多的多巴胺。58這些結果將多巴胺釋放與預測誤差信號相關的作用擴展到了社會領域，暗示著類似的強化學習機制參與了他人的獎勵結果的信號傳遞。值得注意的是，與自己的獎勵相比，對他人獎勵結果的多巴胺釋放程度仍然明顯較弱，這表明雖然使用了類似的機制，但其方式可以區(qū)別于自我和他人。58在參與自我和他人的動作和獎勵結果的任務環(huán)境的猴群中，紋狀體中的神經元在發(fā)信號通知他人執(zhí)行動作的同時，發(fā)信號通知自己所接收的獎勵而不是他人所接收的獎勵，59這表明紋狀體中可能存在發(fā)信號通知自我參照和其他參照信息的特化器官，并且這種區(qū)分可能進一步取決于對另一個體的動作和獎勵結果的編碼。

還有證據表明，紋狀體代表人類功能磁共振成像研究的其他參照獎勵和預測誤差。當由同伴進行社會評估時，先前與個體的積極的社交互動導致個體與積極的結果相關聯(lián)，所述積極的結果與紋狀體中的活動以及眶額皮層的活動相關。這表明社交互動同樣可以激活大腦區(qū)域，通常表示主要強化因素的增強值。紋狀體似乎也參與了獎勵的相對評估，可將他人的表征與自己的表征加以比較。在最后通牒博弈的實驗中，受試者將錢給同伴并能拿回一部分錢，紋狀體的激活也與預測誤差相關，這些預測誤差反映了受試者從同伴那里得到的提議與他們期望同伴給予的提議之間的差異，而不是受試者期望的感覺與他們實際感覺之間的差異，似乎反映在腹內側前額皮質( vmPFC)和后扣帶皮質中。

此外，關于期望形成的類似于強化學習的預測誤差形成了關于他人怎樣看待與紋狀體、眼窩前額皮質（OFC）、前喙扣帶皮質（rACC）和前腦島活動相關的主體。需要了解他人的行為和結果和/或他人的內部狀態(tài)建模的各種經濟博弈風格的任務已經表明，紋狀體包含在這些過程中。例如，他人觀察到的行為會影響自己的經濟決策，這反映在紋狀體血氧水平依賴腦功能（BOLD）響應中。此外，如果社會學習的額外回報被去除，只需要對他人執(zhí)行純粹的觀察任務，那么在紋狀體中仍然會發(fā)生人際預測誤差。類似地，互惠博弈證明學習信任或不信任他人的行為是由尾狀核中的預測誤差信號傳遞的

有趣的是，紋狀體中的這些其他參照預測誤差甚至可能與社會規(guī)范相關聯(lián)，因為它們在依賴他人反饋的經濟博弈中被激活。與違背小組意見相關聯(lián)的預測誤差類型信號也表明與下述內容的相關性，即受試者如何改變其行為，從而在隨后的判斷中與該組保持一致性.

在信任博弈中，投資者給受托人資金后，受托人可向其返還一部分資金，參與人所預估的受托人的還款率與受托人實際償還的金額之間的差異導致了受試者中紋狀體的預測誤差，這種誤差是因為他們依靠了合作伙伴的學習行為。此外，在同一研究中，投資者的投資比例與投資者建模（他人對投資者所執(zhí)行行為的建模）之間的差異形成了第二級預測誤差。值得注意的是，研究發(fā)現，未能深入模仿同伴的大腦的受試者將體會更多第一類預測誤差中的紋狀體相關性（即，更多地依賴于他人的行為），而受試者模仿同伴的大腦的內容越多，他們就越有可能激活紋狀體，從而產生第二級預測誤差（即，更多地依賴于他人的心理表征）。

前扣帶皮質

多種行為和認知狀態(tài)均與前扣帶皮層( ACC)有關，可以概括為一個與動機、發(fā)起獎勵導向或目標導向行為有關的綜合領域。從這個角度看，前扣帶皮層可能是整合不同的自我參照信息流和其他參照信息來產生適應性行動計劃的核心軌跡（參見圖1，其他參照獎勵和大腦行動區(qū)域的可視化）。前扣帶皮層參與社會決策的大量證據支持了這一點，前扣帶皮層的神經元信號反映了關于自我、他人或兩者的信息處理。在觀察性學習領域，前扣帶皮層特異性鈣電流缺失可以有效地消除小鼠通過觀察同種個體沖擊的學習能力。與此相關的是，疼痛的觀察方面已經成為研究人腦中同感的主要焦點。觀察另一個人受傷和經歷疼痛的跡象會引起移情關切，并積極參與前扣帶皮層的特定部分活動。經歷疼痛時，前扣帶皮層也同樣被激活。這種共享的機制支持觀察導向的替代疼痛處理被限制或重新用于處理自己的痛苦。

前扣帶皮層可能代表皮層通路中的一個關鍵接合點，從自我和他人的角度通過處理動機來代表和區(qū)分自我和他人。當猴子執(zhí)行社會獎勵分配任務時，監(jiān)測個體前扣帶皮層神經元的峰形活動，其中，行為動物可以選擇向接受者遞送或扣留果汁獎勵，這表明在發(fā)出自我和他人的獎勵結果的信號方面存在著特殊性。更具體地，在前扣帶回ACC( ACCg)的腦回中，一些神經元專門編碼自我獎勵，而另一些神經元專門編碼他人的獎勵，還有一些神經元編碼自我和他人的獎勵結果。81值得注意的是，損傷前扣帶回而非前扣帶溝，消除了對猴群的社會評價，表明前扣帶回在社會認知中的因果作用。類似地，在人腦中，頭側前扣帶皮層神經元與上述前扣帶回神經元有所疊蓋，在需要觀察性學習的紙牌游戲中，從他人那里獲得信號獎勵結果。

圖1. 涉及與另一個體相關的表征信息的關鍵大腦區(qū)域。這些腦區(qū)往往與下述內容相關聯(lián)，如心智化能力，檢測他人的信念，或發(fā)出有關另一個體的決策變量的信號。請參閱文本，了解這些領域如何與表征另一個體的信息相關聯(lián)。冠狀磁共振成像的插圖表明各個截面（紅線）與尼式染色的矢狀切片相對應。某一腦區(qū)周圍的虛線輪廓表明該區(qū)域從外側表面向中間投射，目的是使該區(qū)域成為大腦更內側的一部分。根據網站http://www.brains.rad.msu.edu 和http://brainmuseum.org許可進行改編，得到美國國家科學基金會和美國國立衛(wèi)生研究院的支持。ACCg前扣帶回, ACCs前扣帶溝, dlPFC背外側前額葉皮層, dmPFC背內側前額葉皮層, IPL頂下小葉, MTG 內側顳骨回, PCC后扣帶回皮質, PrCu楔前葉, STS 顳上溝, TPJ 顳頂聯(lián)合區(qū), vmPFC 腹內側前額葉皮層

此外，ACC中的神經元已被證明是在猴子進行囚徒困境博弈時調停集體獎勵引導的行為，從而提供強有力的證據表明自我和其他過程被整合到ACC中。自我和其他融合到ACC的證據還得到了一個解剖梯度的支持，這個解剖梯度沿著人類的扣帶在一個信任博弈中繪制自身和他人，如果沒有回應的合作伙伴，該游戲則不存在。此外，已經假定ACCs和ACCg代表不同的信息流。

準確的社會學習需要多種類型的預測誤差信號（參見圖2，大腦中自我參照和其他參照預測誤差的表征）。例如，觀察行為預測誤差表示另一個人實際行為與預期行為之間的差異，而替代結果預測誤差表示另一個人實際結果和預測結果之間的差異。此外，為了判斷他人的動機，替代性的動態(tài)預測誤差表示他人在他們的動作期間的實際和估計的活動運動學之間的差異48。在ACC中已經報告了自我參照行為值的預測誤差，并且ACC的溝和回部分都涉及自我獎勵評估和決策。ACCs因涉及眾多功能而被深入、充分研究，包括誤差檢測和動機以及認知控制和反應選擇。最近，關于ACCs是否涉及計算價值引導的行為適應或認知控制，存在著廣泛的爭論。

值得注意的是，在腦回和腦溝之間似乎有信號功能分離的自我參照信息和其他參照信息。例如，與另一個人做出的選擇有關的預測誤差可以在ACCg中找到，但在ACCs中找不到。此外，ACCs神經元在社會決策任務中以自我參照方式編碼獎勵結果，而ACCg神經元的亞組以其他參考方式進行。同樣，在競爭競爭博弈中，自我參照的獎賞結果預測誤差與腹側紋狀體的活動相關，但關鍵的是，有關基于信念的競爭伙伴行為的預測誤差在頭端ACC（rACC）中進行編碼。此外，在涉及利用另一個人建議的社會決策任務中，ACCs和ACCg分別對自己和他人的學習率進行了差分計算?？傮w而言，盡管已經在ACC中檢測到社交信號，但是根據跨越全腦神經影像學、電生理記錄和解剖專業(yè)累計的證劇，ACCg與其他參照信息處理具有最明確的聯(lián)系。

前額葉皮質

前額葉皮層有許多子區(qū)域，通常被認為是與決策有關的高層認知過程的場所。因此，前額皮質的許多部分處理其他參照信息是憑直覺完成的。當觀察另一個人的誤差選擇時，通過在成對的猴子輪流進行決策任務期間通知特定目標與可能獎勵之間的關聯(lián)，背內側額葉皮層中的神經元編碼這對猴子所犯的誤差，作為社交誤差監(jiān)控功能，這依賴于其他參照信息。同樣，腹內側前額葉皮層（vmPFC）編碼人類觀察另一個人在尋求獎勵任務行為中的價值，并與該個體向符合社會規(guī)范的行為相關聯(lián)。其他類型的預測誤差在前額葉皮質也發(fā)現了其他類型的預測誤差。當參與者通過直接經驗或觀察另一個人的行動和結果學習刺激與獎勵結果之間的偶然性時，與獎勵有關的不同前額結構表明自我和他人的學習相關事件。在這種情況下，腹側紋狀體表示自我預測誤差，背外側前額葉皮層（dlPFC）表示他人行為的預測誤差，vmPFC表示他人的結果預測誤差。

5 (2).png

6 (2).png

圖2顯示的關鍵大腦區(qū)域與行為（a）和獎勵/價值結果（b）中的自我參照信息預測誤差（黃色）或其他參照預測誤差（紫色）或兩種預測誤差（綠色）有關。對于運動學習相關的誤差，研究者只提供在大腦中具有代表性的區(qū)域，因為它們超出了本綜述文章的范圍。值得注意的是，這些自我參照或其他參照預測誤差信號的分布區(qū)域自然地受到檢查不同類型預測誤差的研究量的限制。帶有冠狀磁共振圖像的插圖指示對應的大腦矢狀面尼氏染色（紅線）部分。虛線輪廓區(qū)域表示該區(qū)域從側面向內突出，目的是將該區(qū)域包括在大腦更內側的區(qū)域上。根據http://www.brains.rad.msu.edu，http：//brainmuseum.org的許可進行改編，得到美國國家科學基金會和美國國立衛(wèi)生研究院的支持。ACC前扣帶皮層，ACCg前扣帶回，ACCs前扣帶溝，dlPFC背外側前額葉皮層，dmPFC背內側前額葉皮層，LHb外側韁核，LIP側顱內區(qū)，MTG內側顳骨回，OFC眶額葉皮層，SC上丘，SN黑質，STS顳上溝，TPJ顳頂聯(lián)合區(qū)，vmPFC腹內側前額葉皮層，VS腹側紋狀體，VTA腹側被蓋區(qū)。

此外，Suzuki等人研究了學習刺激-獎勵結果突發(fā)事件的神經相關性，在參與者直接了解該關聯(lián)以及參與者預測另一個人可能選擇哪種刺激時的兩種情況，鼓勵參與者塑造或精神模擬其他個體。這種操作需要使用其他參照的預測誤差，這個誤差計算了另一個人做什么和參與者認為另一個人會做什么之間的差異。同樣，前額皮層的不同部分作為自我參照和其他參照計算功能被使用。腹內側前額葉皮層以與自身相似的方式跟蹤模擬他人的預測誤差，而模擬他人動作的預測誤差在背內側前額葉皮層（dmPFC）和背外側前額葉皮層（dlPFC）顯示。值得注意的是，猴子背內側前額葉皮層中的神經元活動已經顯示出對手在競爭獎勵任務中密切反映的策略，進一步加強了背內側前額葉皮層在模擬其他方面的專門作用。這與Behrens等人的研究結果是一致的，其中前扣帶回和前扣帶溝分別計算了可分離的獎勵信號以用于其他參照和自我參照的獎勵信息，并且這些信號被整合到腹內側前額葉皮層中。

最后，眶額葉皮層（OFC）是顯示獎賞價值的關鍵皮層區(qū)域，并且與顯示值預測誤差信號相關聯(lián)。盡管眶額葉皮層神經元對涉及自我和他人的社會獎勵環(huán)境敏感，但是這些神經元的獎勵結果編碼似乎是自我參照的，這表明眶額葉皮層可能更局限于調節(jié)行為適應，包括在自我參照的框架下適應社會環(huán)境。

關于他人的各種預測誤差的編碼是許多與獎勵相關的大腦區(qū)域特征，這表明自我學習與學習他人或向他人學習之間存在緊密的生物聯(lián)系。特別是這些結果支持這樣一種觀念：理解和學習另一個人的經驗是根據共同的預測編碼原則進行處理的，這些原則包括自我和其他領域的特定區(qū)域專業(yè)領域。

顳頂聯(lián)合區(qū)和心智化網絡

引用心智理論時，需要另一個人的建模，比起他人而言，尤其要激活一個人的楔前葉（PrCu），后扣帶回（PCC），以及顳上溝（STS），顳頂聯(lián)合區(qū)（TPJ）和內側前額葉皮層（mPFC）他人。長期以來，顳上溝和顳頂聯(lián)合區(qū)一直被認為是像心智理論這樣的高級認知和建模他人精神的神經熱點。顳頂聯(lián)合區(qū)尤其被認為是一個獨特的社會認知重點領域98，有證據表明顳頂聯(lián)合區(qū)是代表他人信念的必要條件。對心智理論相關領域的元分析確定了最可靠的牽連區(qū)域是顳頂聯(lián)合區(qū)和側前額葉皮層，楔前葉和顳上溝的激活對于各種心智理論方法背景下的心智理論類型較敏感。值得注意的是，研究人員發(fā)現側前額葉皮層中自我指涉的思想與他人的心智化有著密切的聯(lián)系，表明自我參照和其他參照信息在心智化網絡的一個關鍵區(qū)域是如何相互聯(lián)系的。

值得注意的是，顳頂聯(lián)合區(qū)和顳上溝的組成并不是專門為測量心智理論而設計的。當考慮他人的信息來指導自己的行為時，顳頂聯(lián)合區(qū)和顳上溝也被激活，表明了他們對廣泛定義其他參照計算的參與。當參與者考慮到另一個人的建議來獲得潛在獎勵的決定時，背內側前額葉皮層、內側顳骨回（MTG）、顳上溝和顳頂聯(lián)合區(qū)激活信號表示社會預測誤差。此外，當針對人類對手和計算機算法進行簡化的撲克游戲時，顳頂聯(lián)合區(qū)作為預測行為相關的社會決策的獨特區(qū)域而出現。另外，顳上溝在視覺線索的社會認知中扮演著重要角色。因此，跟蹤和解釋社會相關信息可能是構成所謂的心智化網絡區(qū)域的基本組成部分。最近提出的一個簡明提案稱顳頂聯(lián)合區(qū)是一個計算中心，其中注意力、記憶力、感官知覺和語言等不同的認知過程都匯聚在一起，產生行為相關的社會背景的表征。

與這個想法相對應的是，這一心智化網絡中的許多節(jié)點已被觀察到執(zhí)行額外的功能，這些功能與社會行為的其他方面有潛在關聯(lián)。例如，已經提出后扣帶回計算主觀價值以及其他相關的社會過程，包括人的感知、更新和第一印象.

結束語

黑爾（Hale）和（薩克思）Saxe109提出，心智化可能是一個基本的預測過程。雖然研究者目前對大腦如何實現理論-理論或模擬理論中描述過程的理解并不完整，但似乎被神經表征的其他參照預測誤差以神經學的形式展現，這一事實表明，存在用于社會學習和強化學習的基于預測的共同學習機制。其他參照學習的神經機制可以從用于學習自我的預測機制中選擇，其中之一是預測誤差信號。將強化學習和決策的術語連接到社會領域可以加強發(fā)展研究者如何思考他人的思路和方法。

其他參照學習還有很多額外的維度有待探索。隨著實驗者繼續(xù)推動研究社會學習、互動和評估的極限，研究者可能會發(fā)現自己正在刷新大腦處理“社會”和“非社會”的極限。除了大腦中其他參照的表征之外，社會處理也可以指代社會主體與非社會主體之間的比較。雖然不同的大腦區(qū)域可能會應用類似的計算來解釋自己和他人，但社會信息處理背后的神經過程可能并非與其他類型的信息截然不同，而是處于一個連續(xù)統(tǒng)一體。例如，當人類參與者與其他個人或與被編程具有不同程度慷慨的老虎機伙伴玩游戲，顳頂聯(lián)合區(qū)、后扣帶回、楔前葉、腹內側前額葉皮層和其他幾個區(qū)域中的激活相似地反映了人類和老虎機伙伴對慷慨的預測誤差.

這一發(fā)現和許多觀察到社會和非社會信息之間的大腦激活調節(jié)差異的發(fā)現可能表明，大腦事實上可能并不區(qū)分這兩種信息，而是根據特定行為約束所要求的實現算法來處理信息。也許社會功能可以被看作是大腦的遺傳功能被賦予新的目的，演變成處理有機體的社會環(huán)境。那么“社交大腦”的概念應該關注如何使用特定的常用計算算法來指導適應性行為。

致謝：

要感謝A.N.，L.S.和D.L.對原稿所提出的周到建議。這項工作得到了國家精神衛(wèi)生研究所（S.W.C.C., R00-MH099093, R01-MH110750, R21-MH107853），Alfred P. Sloan基金會（S.W.C.C.，FG-2015-66028）和加拿大自然科學與工程研究理事會PGSD獎學金（M.P.，471313）的支持。

原文鏈接：https://www.nature.com/articles/s41539-017-0009-2.pdf

>>聲明

本翻譯僅作了解之用，并非用于學術研究或商業(yè)決策。芥末堆海外翻譯社群的小伙伴們力求將關鍵理念與思想更廣泛地傳播至中文區(qū)域，故部分表達可能與原文有所差異。如需使用，請查證原文。

1、本文是芥末堆網原創(chuàng)文章，轉載可點擊芥末堆內容合作了解詳情，未經授權拒絕一切形式轉載，違者必究；
2、芥末堆不接受通過公關費、車馬費等任何形式發(fā)布失實文章，只呈現有價值的內容給讀者；
3、如果你也從事教育，并希望被芥末堆報道，請您填寫信息告訴我們。

來源：芥末堆

芥末堆商務合作：王老師 18710003484

【芥末翻】通過大腦預測誤差來進行社會學習（2）

【芥末翻】通過大腦預測誤差來進行社會學習（2）

圖片來源：谷歌圖片；論文來源：Social learning through prediction error in the brain, npj Science of Learning 2, Article number: 8(2017)；作者：Jessica Joiner 1, Matthew Piva 2,3 , Courtney Turrin 1 and Steve W. C. Chang. 譯者：馬亮.

編輯推薦

【芥末翻】通過大腦預測誤差來進行社會學習（2）

【芥末翻】通過大腦預測誤差來進行社會學習（2）

圖片來源：谷歌圖片；論文來源：Social learning through prediction error in the brain, npj Science of Learning 2, Article number: 8(2017)；作者：Jessica Joiner 1, Matthew Piva 2,3 , Courtney Turrin 1 and Steve W. C. Chang. 譯者：馬亮.

編輯推薦

圖片來源：谷歌圖片；論文來源：Social learning through prediction error in the brain, npj Science of Learning 2, Article number: 8(2017)；作者：Jessica Joiner 1, Matthew Piva 2,3 , Courtney Turrin 1 and Steve W. C. Chang. 譯者：馬亮.