芥末堆芥末堆

【芥末翻Summary】通過大腦預測誤差來進行社會學習(1)

作者:介一隹 發(fā)布時間:

【芥末翻Summary】通過大腦預測誤差來進行社會學習(1)

作者:介一隹 發(fā)布時間:

摘要:本文論述人類進行社會學習的生理基礎。從腦科學的角度對人的社會認知進行解讀。

【芥末翻】是芥末堆全新推出的一檔學術欄目,由芥末堆海外翻譯社群的小伙伴們助力完成。我們致力于將全球經(jīng)典或是前沿的教育理念、教育技術、學習理論、實踐案例等文獻翻譯成中文,并希望能夠通過引進這類優(yōu)質教育研究成果,在全球教育科學的推動下,讓更好的教育來得更快!  

prediction.jpg

圖片來源:谷歌圖片;論文來源:Social learning through prediction error in the brain, npj Science of Learning 2, Article number: 8(2017);作者:Jessica Joiner 1, Matthew Piva 2,3 , Courtney Turrin 1 and Steve W. C. Chang.譯者:馬亮;審校:馮娜;整理:允菡

目前科學家們對人類元認知能力(簡單來說即為自我反思的能力)有了相對明了的研究,然而卻對大腦如何參照他人、參照自己而進行學習的機制知之甚少。而本文著重講述了大腦參照他人行為、自己行為的心理現(xiàn)象與生理基礎。

一、心理現(xiàn)象:

1.觀察(簡單模仿---替代強化---心智理論)

人類伴隨著心理機制的發(fā)展,從完全的以自我為中心的生存狀態(tài)到開始懂得觀察周圍的環(huán)境(舉個例子:嬰兒想吃糖,是通過大聲宣告和哭;小孩子想吃糖,會微笑會撒嬌來要糖吃)。與此同時,人類觀察學習的能力逐漸覺醒。

當學習者觀察其他智能體行為時,社會學習就此發(fā)生。剛開始,可能只是簡單的模仿。慢慢的如果找到和自己相似的模仿對象,那么替代強化學習就開始發(fā)生,相對應的學習效率會相對較高。(比如榜樣學習,當一個完全不會服裝搭配的人,找到了身材和自己類似的穿搭博主,于是開始模仿學習,并逐漸找到了自己的穿衣風格)

題目中所提到的“社會學習”,重點在于“觀察學習”。在這種學習中,不僅僅是一個主體簡單觀察另一個主體,而是更多以社會文化為核心,展現(xiàn)出社會學習與社會交往本身一樣的多面性。比如,人們可以了解他人的不同方面,例如個性或社會環(huán)境下的心理狀態(tài)。

觀察他人之后,大腦開始處理信息,人類通過觀察他人解構其心理狀態(tài)(俗稱“讀心”),而解構他人信念的能力稱之為心智理論(Theory Of Mind)。 心智理論可以稱之為了解其他個體最復雜的一種形式,涉及大量其他參照內容及復雜的加工處理,它是指通過推測他人的心理狀態(tài),并根據(jù)該推測,合理理解和預測他人的行為的過程。

2.強化學習

在預測他人行為時,大腦特別需要用到強化學習

強化學習:是多學科多領域交叉的一個產(chǎn)物,它的本質就是解決“decision making”問題,即學會自動進行最優(yōu)決策。

在經(jīng)濟學領域體現(xiàn)在博弈論的研究;在計算機科學領域體現(xiàn)為機器學習算法;在工程領域體現(xiàn)在決定操作動作的順序來得到最好的結果;在心理學領域,研究動物和人類是如何做出決策,以及行為是由什么導致的;在神經(jīng)科學領域體現(xiàn)在理解人類大腦如何做出決策,主要的研究是獎勵機制。

無論是人類還是非人類動物,以強化學習理論為基礎進行各種學習和決策任務。

強化學習廣受重視的根本原因是,生物體從環(huán)境中收集信息來學習并做出決定,這種方式被強化學習概念化,變得有章可循。

提示:深入了解強化學習概念化的內容,參照理查德·貝爾曼(Richard Bellman)的最優(yōu)方程和動態(tài)規(guī)劃模型,以下為簡要內容:

強化學習需要人類在特定環(huán)境中通過根據(jù)不同狀態(tài)或環(huán)境情境做出反應。其他必要組成部分還包括獎勵信號、價值功能和策略。獎勵結果是所有形式強化學習的中心,由人類在環(huán)境中的行動結果構成并形成一定數(shù)量。然后人類使用該獎勵結果來計算價值函數(shù),推測特定狀態(tài)/環(huán)境的期望值以及特定狀態(tài)和動作的連接。人類使用這些價值函數(shù)來開發(fā)一組優(yōu)先行動,稱為決策。環(huán)境模型是強化學習可選的部分,可以為生物提供狀態(tài)轉換的指導。(本段中“人類”可替換為“智能體”,因為這一理論同樣適用于動物行為研究)

學習是通過比較期望獎勵和實際獎勵,在一定時間內兩者過渡之后得到實現(xiàn)。在動態(tài)規(guī)劃模型中,這個差異就是獎勵預測誤差,其重要功能是用于更新函數(shù),并最終用于智能體與其環(huán)境交互的決策。

預測誤差是原始學習模式的基本屬性。簡而言之,預測誤差會計算人類在給定的事件或試驗中預期發(fā)生與實際發(fā)生的行為差異。這也可以稱為誤差信號。人類會對自己的行為及進行反思。

預測誤差被有效地用作驅動自參照學習的信號。特別是計算預期回報與獲得回報之間差異的獎勵預測錯誤已被確定為神經(jīng)生物學中數(shù)學學習規(guī)則的重要關聯(lián)知識。接著讓我們探究一下腦神經(jīng)領域中社會學習的生理基礎吧!

二、生理基礎

預測誤差不限于獎賞預測誤差。

Schultz等人在1997年提出了“獎賞預測誤差假說 (reward prediction error hypothesis)”。(1)初期,預期為0,獎賞為1, 誤差為1,多巴胺細胞興奮;(2)后期,預期為1,獎賞為1,誤差為0,多巴胺細胞無反應;(3)突然去掉獎賞,預期為1,獎賞為0,誤差為-1, 多巴胺細胞抑制。這就是多巴胺細胞編碼“獎賞預測誤差”的簡單描述。

處于前扣帶皮層的“預測神經(jīng)元”可以控制多巴胺的濃度,讓人成功預測一件事情的發(fā)生時就會產(chǎn)生多巴胺,比如聽到鈴聲后得到了食物,除了食物獲得產(chǎn)生的多巴胺以外還會額外產(chǎn)生一些,這時人就會更快樂;而當預測錯誤的時候則會降低多巴胺的分泌,人就會產(chǎn)生慌張的感覺;這樣人就可以在食物之外產(chǎn)生額外的多巴胺得到額外的樂趣了。

預測誤差甚至存在于大腦的感覺運動區(qū)域,這些區(qū)域處理諸如小腦和額頁眼動區(qū)(關于預測誤差的類型和相關腦區(qū),參見表1)的精細調諧動作。

1.png

3.png

隨著人們對復雜人類行為的了解,現(xiàn)在研究者們開始試圖將參照自我學習的研究納入?yún)⒄账藢W習范圍中。對于社會中的個體來說,對特定事物做出適當?shù)姆磻⒄_地預測是必要的。正如預期的那樣,了解他人以及自我的過程和信息是由幾個與獎勵相關的大腦結構所傳遞的。

接下來,文中涉及了關于大腦如何在強化學習和決策領域發(fā)出自我參照和其他參照信息信號的新見解。此外,研究者將重點關注預測誤差信號,這些信號與行動和獎勵結果相關,獎勵結果又同社會學習聯(lián)系密切。

神經(jīng)科學領域的最新進展為運用強化學習機制向他人學習提供了各種支持。雖然紋狀體長期以來一直是大腦中自我參照獎勵信息和預測錯誤的焦點,但紋狀體在學習中的作用并不限于自我參照處理。在一項關于多巴胺釋放的觀察性學習和替代性強化的研究中,當觀察到另一只老鼠接受獎勵,相比獎勵品被投放至某個空盒子里時,觀察鼠在腹側紋狀體中發(fā)出更多的聲音并釋放明顯更多的多巴胺。這些結果將多巴胺釋放與預測錯誤信號相關的作用擴展到了社會領域,暗示著類似的強化學習機制參與了他人的獎勵結果的信號傳遞。

還有證據(jù)表明,人類功能磁共振成像研究中,紋狀體代表其他參照(參照他人)獎勵和預測誤差。當由同伴進行社會評估時,先前與個體的積極的社交互動導致個體與積極的結果相關聯(lián),所述積極的結果與紋狀體中的活動以及眶額皮層的活動相關。這表明社交互動同樣可以激活大腦區(qū)域,通常表示主要強化因素的增強值。紋狀體似乎也參與了獎勵的相對評估,可將他人的表征與自己的表征加以比較。

對有關他人的各種預測誤差進行編碼是許多與獎勵信息相關的大腦區(qū)域特征,這表明自我學習與學習他人或向他人學習之間存在緊密的生物聯(lián)系。特別是這些結果支持這樣一種觀念:理解和學習另一個人的經(jīng)驗是根據(jù)共同的預測編碼原則進行處理的,這些原則包括自我和其他領域的專業(yè)信息。

詳細的大腦區(qū)域特征請查證原文:

前扣帶皮層( ACC)與多種行為和認知狀態(tài)的關系

前額葉皮層的許多子區(qū)域與決策有關高層認知過程的關系

顳頂聯(lián)合區(qū)與心智化網(wǎng)絡

三、總結

本文從心理學角度,揭示了人類社會學習的心理表征,同時又從神經(jīng)科學角度揭示強化學習原理,從代表自我和他人信息的角度探索了社會學習潛在的神經(jīng)機制。特別是,研究者討論了大腦多個結構中的參照自我和參照他人的獎勵預測錯誤類型,探究了如何有效運用強化學習算法調節(jié)社會學習。

黑爾(Hale)和(薩克思)Saxe提出,心智化可能是一個基本的預測過程。雖然研究者目前對描述大腦機制運行過程的理論解釋并不完整,但神經(jīng)學方面卻有相應的展現(xiàn)。這一事實表明,一方面,用于社會學習和強化學習的共同學習機制是存在的;另一方面,其他參照學習的神經(jīng)機制也可以用于自我學習的預測機制中,其中之一就是預測誤差信號。將強化學習、決策的心理學和神經(jīng)科學術語連接到社會領域可以促進研究者們開拓其他的研究道路。

本文涉及專業(yè)詞匯:

Reinforcement Learning 強化學習       

Time Discounting 時間貼現(xiàn) (時間貼現(xiàn)是指個人對事件的價值量估計隨著時間的流逝而下降的心理現(xiàn)象,它是行為選擇理論的一個重要組成部分。人們根據(jù)行為結果的價值抉擇行為,對行為結果價值的認知會受到時間的影響。)

social learning 社會學習     observational learning 觀察學習

reward prediction error signal 獎勵預測誤差信號

Theory of Mind(ToM) 心智理論

原文鏈接:https://www.nature.com/articles/s41539-017-0009-2.pdf

>>聲明

本翻譯僅作了解之用,并非用于學術研究或商業(yè)決策。芥末堆海外翻譯社群的小伙伴們力求將關鍵理念與思想更廣泛地傳播至中文區(qū)域,故部分表達可能與原文有所差異。如需使用,請查證原文

1、本文是 芥末堆網(wǎng)原創(chuàng)文章,轉載可點擊 芥末堆內容合作 了解詳情,未經(jīng)授權拒絕一切形式轉載,違者必究;
2、如果你也從事教育,并希望被芥末堆報道,請您 填寫信息告訴我們。
來源: 芥末堆
芥末堆商務合作:王老師 18710003484
  • 【芥末翻Summary】通過大腦預測誤差來進行社會學習(1)分享二維碼