【芥末翻】是芥末堆全新推出的一檔學(xué)術(shù)欄目,由芥末堆海外翻譯社群的小伙伴們助力完成。我們致力于將全球經(jīng)典或是前沿的教育理念、教育技術(shù)、學(xué)習(xí)理論、實(shí)踐案例等文獻(xiàn)翻譯成中文,并希望能夠通過(guò)引進(jìn)這類(lèi)優(yōu)質(zhì)教育研究成果,在全球教育科學(xué)的推動(dòng)下,讓更好的教育來(lái)得更快!
圖片來(lái)源:谷歌圖片;論文來(lái)源:Social learning through prediction error in the brain, npj Science of Learning 2, Article number: 8(2017);作者:Jessica Joiner 1, Matthew Piva 2,3 , Courtney Turrin 1 and Steve W. C. Chang.譯者:馬亮;審校:馮娜;整理:允菡
目前科學(xué)家們對(duì)人類(lèi)元認(rèn)知能力(簡(jiǎn)單來(lái)說(shuō)即為自我反思的能力)有了相對(duì)明了的研究,然而卻對(duì)大腦如何參照他人、參照自己而進(jìn)行學(xué)習(xí)的機(jī)制知之甚少。而本文著重講述了大腦參照他人行為、自己行為的心理現(xiàn)象與生理基礎(chǔ)。
一、心理現(xiàn)象:
1.觀察(簡(jiǎn)單模仿---替代強(qiáng)化---心智理論)
人類(lèi)伴隨著心理機(jī)制的發(fā)展,從完全的以自我為中心的生存狀態(tài)到開(kāi)始懂得觀察周?chē)沫h(huán)境(舉個(gè)例子:嬰兒想吃糖,是通過(guò)大聲宣告和哭;小孩子想吃糖,會(huì)微笑會(huì)撒嬌來(lái)要糖吃)。與此同時(shí),人類(lèi)觀察學(xué)習(xí)的能力逐漸覺(jué)醒。
當(dāng)學(xué)習(xí)者觀察其他智能體行為時(shí),社會(huì)學(xué)習(xí)就此發(fā)生。剛開(kāi)始,可能只是簡(jiǎn)單的模仿。慢慢的如果找到和自己相似的模仿對(duì)象,那么替代強(qiáng)化學(xué)習(xí)就開(kāi)始發(fā)生,相對(duì)應(yīng)的學(xué)習(xí)效率會(huì)相對(duì)較高。(比如榜樣學(xué)習(xí),當(dāng)一個(gè)完全不會(huì)服裝搭配的人,找到了身材和自己類(lèi)似的穿搭博主,于是開(kāi)始模仿學(xué)習(xí),并逐漸找到了自己的穿衣風(fēng)格)
題目中所提到的“社會(huì)學(xué)習(xí)”,重點(diǎn)在于“觀察學(xué)習(xí)”。在這種學(xué)習(xí)中,不僅僅是一個(gè)主體簡(jiǎn)單觀察另一個(gè)主體,而是更多以社會(huì)文化為核心,展現(xiàn)出社會(huì)學(xué)習(xí)與社會(huì)交往本身一樣的多面性。比如,人們可以了解他人的不同方面,例如個(gè)性或社會(huì)環(huán)境下的心理狀態(tài)。
觀察他人之后,大腦開(kāi)始處理信息,人類(lèi)通過(guò)觀察他人解構(gòu)其心理狀態(tài)(俗稱(chēng)“讀心”),而解構(gòu)他人信念的能力稱(chēng)之為心智理論(Theory Of Mind)。 心智理論可以稱(chēng)之為了解其他個(gè)體最復(fù)雜的一種形式,涉及大量其他參照內(nèi)容及復(fù)雜的加工處理,它是指通過(guò)推測(cè)他人的心理狀態(tài),并根據(jù)該推測(cè),合理理解和預(yù)測(cè)他人的行為的過(guò)程。
2.強(qiáng)化學(xué)習(xí)
在預(yù)測(cè)他人行為時(shí),大腦特別需要用到強(qiáng)化學(xué)習(xí)
強(qiáng)化學(xué)習(xí):是多學(xué)科多領(lǐng)域交叉的一個(gè)產(chǎn)物,它的本質(zhì)就是解決“decision making”問(wèn)題,即學(xué)會(huì)自動(dòng)進(jìn)行最優(yōu)決策。
在經(jīng)濟(jì)學(xué)領(lǐng)域體現(xiàn)在博弈論的研究;在計(jì)算機(jī)科學(xué)領(lǐng)域體現(xiàn)為機(jī)器學(xué)習(xí)算法;在工程領(lǐng)域體現(xiàn)在決定操作動(dòng)作的順序來(lái)得到最好的結(jié)果;在心理學(xué)領(lǐng)域,研究動(dòng)物和人類(lèi)是如何做出決策,以及行為是由什么導(dǎo)致的;在神經(jīng)科學(xué)領(lǐng)域體現(xiàn)在理解人類(lèi)大腦如何做出決策,主要的研究是獎(jiǎng)勵(lì)機(jī)制。
無(wú)論是人類(lèi)還是非人類(lèi)動(dòng)物,以強(qiáng)化學(xué)習(xí)理論為基礎(chǔ)進(jìn)行各種學(xué)習(xí)和決策任務(wù)。
強(qiáng)化學(xué)習(xí)廣受重視的根本原因是,生物體從環(huán)境中收集信息來(lái)學(xué)習(xí)并做出決定,這種方式被強(qiáng)化學(xué)習(xí)概念化,變得有章可循。
提示:深入了解強(qiáng)化學(xué)習(xí)概念化的內(nèi)容,參照理查德·貝爾曼(Richard Bellman)的最優(yōu)方程和動(dòng)態(tài)規(guī)劃模型,以下為簡(jiǎn)要內(nèi)容:
強(qiáng)化學(xué)習(xí)需要人類(lèi)在特定環(huán)境中通過(guò)根據(jù)不同狀態(tài)或環(huán)境情境做出反應(yīng)。其他必要組成部分還包括獎(jiǎng)勵(lì)信號(hào)、價(jià)值功能和策略。獎(jiǎng)勵(lì)結(jié)果是所有形式強(qiáng)化學(xué)習(xí)的中心,由人類(lèi)在環(huán)境中的行動(dòng)結(jié)果構(gòu)成并形成一定數(shù)量。然后人類(lèi)使用該獎(jiǎng)勵(lì)結(jié)果來(lái)計(jì)算價(jià)值函數(shù),推測(cè)特定狀態(tài)/環(huán)境的期望值以及特定狀態(tài)和動(dòng)作的連接。人類(lèi)使用這些價(jià)值函數(shù)來(lái)開(kāi)發(fā)一組優(yōu)先行動(dòng),稱(chēng)為決策。環(huán)境模型是強(qiáng)化學(xué)習(xí)可選的部分,可以為生物提供狀態(tài)轉(zhuǎn)換的指導(dǎo)。(本段中“人類(lèi)”可替換為“智能體”,因?yàn)檫@一理論同樣適用于動(dòng)物行為研究)
學(xué)習(xí)是通過(guò)比較期望獎(jiǎng)勵(lì)和實(shí)際獎(jiǎng)勵(lì),在一定時(shí)間內(nèi)兩者過(guò)渡之后得到實(shí)現(xiàn)。在動(dòng)態(tài)規(guī)劃模型中,這個(gè)差異就是獎(jiǎng)勵(lì)預(yù)測(cè)誤差,其重要功能是用于更新函數(shù),并最終用于智能體與其環(huán)境交互的決策。
預(yù)測(cè)誤差是原始學(xué)習(xí)模式的基本屬性。簡(jiǎn)而言之,預(yù)測(cè)誤差會(huì)計(jì)算人類(lèi)在給定的事件或試驗(yàn)中預(yù)期發(fā)生與實(shí)際發(fā)生的行為差異。這也可以稱(chēng)為誤差信號(hào)。人類(lèi)會(huì)對(duì)自己的行為及進(jìn)行反思。
預(yù)測(cè)誤差被有效地用作驅(qū)動(dòng)自參照學(xué)習(xí)的信號(hào)。特別是計(jì)算預(yù)期回報(bào)與獲得回報(bào)之間差異的獎(jiǎng)勵(lì)預(yù)測(cè)錯(cuò)誤已被確定為神經(jīng)生物學(xué)中數(shù)學(xué)學(xué)習(xí)規(guī)則的重要關(guān)聯(lián)知識(shí)。接著讓我們探究一下腦神經(jīng)領(lǐng)域中社會(huì)學(xué)習(xí)的生理基礎(chǔ)吧!
二、生理基礎(chǔ)
預(yù)測(cè)誤差不限于獎(jiǎng)賞預(yù)測(cè)誤差。
Schultz等人在1997年提出了“獎(jiǎng)賞預(yù)測(cè)誤差假說(shuō) (reward prediction error hypothesis)”。(1)初期,預(yù)期為0,獎(jiǎng)賞為1, 誤差為1,多巴胺細(xì)胞興奮;(2)后期,預(yù)期為1,獎(jiǎng)賞為1,誤差為0,多巴胺細(xì)胞無(wú)反應(yīng);(3)突然去掉獎(jiǎng)賞,預(yù)期為1,獎(jiǎng)賞為0,誤差為-1, 多巴胺細(xì)胞抑制。這就是多巴胺細(xì)胞編碼“獎(jiǎng)賞預(yù)測(cè)誤差”的簡(jiǎn)單描述。
處于前扣帶皮層的“預(yù)測(cè)神經(jīng)元”可以控制多巴胺的濃度,讓人成功預(yù)測(cè)一件事情的發(fā)生時(shí)就會(huì)產(chǎn)生多巴胺,比如聽(tīng)到鈴聲后得到了食物,除了食物獲得產(chǎn)生的多巴胺以外還會(huì)額外產(chǎn)生一些,這時(shí)人就會(huì)更快樂(lè);而當(dāng)預(yù)測(cè)錯(cuò)誤的時(shí)候則會(huì)降低多巴胺的分泌,人就會(huì)產(chǎn)生慌張的感覺(jué);這樣人就可以在食物之外產(chǎn)生額外的多巴胺得到額外的樂(lè)趣了。
預(yù)測(cè)誤差甚至存在于大腦的感覺(jué)運(yùn)動(dòng)區(qū)域,這些區(qū)域處理諸如小腦和額頁(yè)眼動(dòng)區(qū)(關(guān)于預(yù)測(cè)誤差的類(lèi)型和相關(guān)腦區(qū),參見(jiàn)表1)的精細(xì)調(diào)諧動(dòng)作。
隨著人們對(duì)復(fù)雜人類(lèi)行為的了解,現(xiàn)在研究者們開(kāi)始試圖將參照自我學(xué)習(xí)的研究納入?yún)⒄账藢W(xué)習(xí)范圍中。對(duì)于社會(huì)中的個(gè)體來(lái)說(shuō),對(duì)特定事物做出適當(dāng)?shù)姆磻?yīng)并正確地預(yù)測(cè)是必要的。正如預(yù)期的那樣,了解他人以及自我的過(guò)程和信息是由幾個(gè)與獎(jiǎng)勵(lì)相關(guān)的大腦結(jié)構(gòu)所傳遞的。
接下來(lái),文中涉及了關(guān)于大腦如何在強(qiáng)化學(xué)習(xí)和決策領(lǐng)域發(fā)出自我參照和其他參照信息信號(hào)的新見(jiàn)解。此外,研究者將重點(diǎn)關(guān)注預(yù)測(cè)誤差信號(hào),這些信號(hào)與行動(dòng)和獎(jiǎng)勵(lì)結(jié)果相關(guān),獎(jiǎng)勵(lì)結(jié)果又同社會(huì)學(xué)習(xí)聯(lián)系密切。
神經(jīng)科學(xué)領(lǐng)域的最新進(jìn)展為運(yùn)用強(qiáng)化學(xué)習(xí)機(jī)制向他人學(xué)習(xí)提供了各種支持。雖然紋狀體長(zhǎng)期以來(lái)一直是大腦中自我參照獎(jiǎng)勵(lì)信息和預(yù)測(cè)錯(cuò)誤的焦點(diǎn),但紋狀體在學(xué)習(xí)中的作用并不限于自我參照處理。在一項(xiàng)關(guān)于多巴胺釋放的觀察性學(xué)習(xí)和替代性強(qiáng)化的研究中,當(dāng)觀察到另一只老鼠接受獎(jiǎng)勵(lì),相比獎(jiǎng)勵(lì)品被投放至某個(gè)空盒子里時(shí),觀察鼠在腹側(cè)紋狀體中發(fā)出更多的聲音并釋放明顯更多的多巴胺。這些結(jié)果將多巴胺釋放與預(yù)測(cè)錯(cuò)誤信號(hào)相關(guān)的作用擴(kuò)展到了社會(huì)領(lǐng)域,暗示著類(lèi)似的強(qiáng)化學(xué)習(xí)機(jī)制參與了他人的獎(jiǎng)勵(lì)結(jié)果的信號(hào)傳遞。
還有證據(jù)表明,人類(lèi)功能磁共振成像研究中,紋狀體代表其他參照(參照他人)獎(jiǎng)勵(lì)和預(yù)測(cè)誤差。當(dāng)由同伴進(jìn)行社會(huì)評(píng)估時(shí),先前與個(gè)體的積極的社交互動(dòng)導(dǎo)致個(gè)體與積極的結(jié)果相關(guān)聯(lián),所述積極的結(jié)果與紋狀體中的活動(dòng)以及眶額皮層的活動(dòng)相關(guān)。這表明社交互動(dòng)同樣可以激活大腦區(qū)域,通常表示主要強(qiáng)化因素的增強(qiáng)值。紋狀體似乎也參與了獎(jiǎng)勵(lì)的相對(duì)評(píng)估,可將他人的表征與自己的表征加以比較。
對(duì)有關(guān)他人的各種預(yù)測(cè)誤差進(jìn)行編碼是許多與獎(jiǎng)勵(lì)信息相關(guān)的大腦區(qū)域特征,這表明自我學(xué)習(xí)與學(xué)習(xí)他人或向他人學(xué)習(xí)之間存在緊密的生物聯(lián)系。特別是這些結(jié)果支持這樣一種觀念:理解和學(xué)習(xí)另一個(gè)人的經(jīng)驗(yàn)是根據(jù)共同的預(yù)測(cè)編碼原則進(jìn)行處理的,這些原則包括自我和其他領(lǐng)域的專(zhuān)業(yè)信息。
詳細(xì)的大腦區(qū)域特征請(qǐng)查證原文:
前扣帶皮層( ACC)與多種行為和認(rèn)知狀態(tài)的關(guān)系
前額葉皮層的許多子區(qū)域與決策有關(guān)高層認(rèn)知過(guò)程的關(guān)系
顳頂聯(lián)合區(qū)與心智化網(wǎng)絡(luò)
三、總結(jié)
本文從心理學(xué)角度,揭示了人類(lèi)社會(huì)學(xué)習(xí)的心理表征,同時(shí)又從神經(jīng)科學(xué)角度揭示強(qiáng)化學(xué)習(xí)原理,從代表自我和他人信息的角度探索了社會(huì)學(xué)習(xí)潛在的神經(jīng)機(jī)制。特別是,研究者討論了大腦多個(gè)結(jié)構(gòu)中的參照自我和參照他人的獎(jiǎng)勵(lì)預(yù)測(cè)錯(cuò)誤類(lèi)型,探究了如何有效運(yùn)用強(qiáng)化學(xué)習(xí)算法調(diào)節(jié)社會(huì)學(xué)習(xí)。
黑爾(Hale)和(薩克思)Saxe提出,心智化可能是一個(gè)基本的預(yù)測(cè)過(guò)程。雖然研究者目前對(duì)描述大腦機(jī)制運(yùn)行過(guò)程的理論解釋并不完整,但神經(jīng)學(xué)方面卻有相應(yīng)的展現(xiàn)。這一事實(shí)表明,一方面,用于社會(huì)學(xué)習(xí)和強(qiáng)化學(xué)習(xí)的共同學(xué)習(xí)機(jī)制是存在的;另一方面,其他參照學(xué)習(xí)的神經(jīng)機(jī)制也可以用于自我學(xué)習(xí)的預(yù)測(cè)機(jī)制中,其中之一就是預(yù)測(cè)誤差信號(hào)。將強(qiáng)化學(xué)習(xí)、決策的心理學(xué)和神經(jīng)科學(xué)術(shù)語(yǔ)連接到社會(huì)領(lǐng)域可以促進(jìn)研究者們開(kāi)拓其他的研究道路。
本文涉及專(zhuān)業(yè)詞匯:
Reinforcement Learning 強(qiáng)化學(xué)習(xí)
Time Discounting 時(shí)間貼現(xiàn) (時(shí)間貼現(xiàn)是指?jìng)€(gè)人對(duì)事件的價(jià)值量估計(jì)隨著時(shí)間的流逝而下降的心理現(xiàn)象,它是行為選擇理論的一個(gè)重要組成部分。人們根據(jù)行為結(jié)果的價(jià)值抉擇行為,對(duì)行為結(jié)果價(jià)值的認(rèn)知會(huì)受到時(shí)間的影響。)
social learning 社會(huì)學(xué)習(xí) observational learning 觀察學(xué)習(xí)
reward prediction error signal 獎(jiǎng)勵(lì)預(yù)測(cè)誤差信號(hào)
Theory of Mind(ToM) 心智理論
原文鏈接:https://www.nature.com/articles/s41539-017-0009-2.pdf
>>聲明
本翻譯僅作了解之用,并非用于學(xué)術(shù)研究或商業(yè)決策。芥末堆海外翻譯社群的小伙伴們力求將關(guān)鍵理念與思想更廣泛地傳播至中文區(qū)域,故部分表達(dá)可能與原文有所差異。如需使用,請(qǐng)查證原文。
2、芥末堆不接受通過(guò)公關(guān)費(fèi)、車(chē)馬費(fèi)等任何形式發(fā)布失實(shí)文章,只呈現(xiàn)有價(jià)值的內(nèi)容給讀者;
3、如果你也從事教育,并希望被芥末堆報(bào)道,請(qǐng)您 填寫(xiě)信息告訴我們。