在《像淘寶店一樣做個(gè)性化學(xué)習(xí)推薦——論萊布尼茨系統(tǒng)的誕生》[1]一文中,我們介紹了基于知識(shí)圖譜的個(gè)性化學(xué)習(xí)推薦系統(tǒng)的基本原理。那篇文章解釋了做一個(gè)合格推薦系統(tǒng)所需的人力成本和時(shí)間成本。如果一個(gè)教育公司不關(guān)心遺產(chǎn)而關(guān)心資產(chǎn)的話(huà),它很難打造出在國(guó)際上有競(jìng)爭(zhēng)力的自適應(yīng)學(xué)習(xí)系統(tǒng)的[2]。
這篇的觀點(diǎn)更為激進(jìn)。即使我們能做出一個(gè)完美的基于知識(shí)圖譜的自適應(yīng)推薦系統(tǒng),也無(wú)法革命性地改進(jìn)K-12教育的生產(chǎn)力(特別是在公立學(xué)校系統(tǒng)中)。請(qǐng)注意我并沒(méi)有為這個(gè)判斷加上“中國(guó)”這個(gè)限定詞;事實(shí)上,在美國(guó)K-12場(chǎng)景中,沒(méi)有任何一款以知識(shí)圖譜為基礎(chǔ)的自適應(yīng)學(xué)習(xí)系統(tǒng)在大規(guī)??煽貙?shí)驗(yàn)中證明了教學(xué)效果的優(yōu)越性。[3][4]
為什么自適應(yīng)學(xué)習(xí)系統(tǒng)看上去這么美,現(xiàn)實(shí)卻這么殘酷?
我認(rèn)為有兩大原因:
第一,K-12對(duì)于個(gè)人學(xué)習(xí)速度差異的容忍度太差(教學(xué)進(jìn)度被大綱高度約束);
第二,我們對(duì)于學(xué)習(xí)過(guò)程本身的理解太淺了,止于測(cè)評(píng),而不及教學(xué)。因此,在不比寬度只比深度的K-12領(lǐng)域,自適應(yīng)學(xué)習(xí)系統(tǒng)沒(méi)有優(yōu)勢(shì)。這并不是說(shuō)它一無(wú)是處,而是說(shuō)需要找到它自己的產(chǎn)品市場(chǎng)契合(product market fit)。在學(xué)生學(xué)習(xí)自愿,學(xué)習(xí)深度較淺,學(xué)習(xí)速度是客戶(hù)剛需的學(xué)習(xí)任務(wù)中,自適應(yīng)學(xué)習(xí)系統(tǒng)會(huì)有其用武之地。
基于知識(shí)圖譜的自適應(yīng)學(xué)習(xí)系統(tǒng)究竟有啥用?
假設(shè)有人把《五年高考三年模擬》這套書(shū)變成一個(gè)基于知識(shí)圖譜的自適應(yīng)推薦系統(tǒng),它和紙質(zhì)原版的優(yōu)勢(shì)在哪里?
(1)減少刷題數(shù)量
有兩類(lèi)題不用刷了:已經(jīng)掌握的(比如答對(duì)概率>95%)[5],根本沒(méi)有掌握的(比如答對(duì)概率<30%)。雖然不同人可以跳過(guò)的題是不相同的,但是我保守估計(jì)在相同效果下,每人的刷題數(shù)量可以降低30%以上。
(2)明確刷題優(yōu)先級(jí)
第一,前置知識(shí)點(diǎn)不掌握的優(yōu)先刷;第二,過(guò)難的題目排后刷。
(3)知識(shí)點(diǎn)的掌握程度的定量測(cè)評(píng)
作為自適應(yīng)學(xué)習(xí)系統(tǒng)的副產(chǎn)品,用戶(hù)可以看到自己在各個(gè)知識(shí)點(diǎn)的掌握程度的估計(jì)。從提分的角度,我愿意大膽猜測(cè)這些改進(jìn)并沒(méi)有什么用處:
降低刷題量沒(méi)有意義
對(duì)于大部分高三學(xué)生而言,少刷題省下來(lái)的時(shí)間干什么?答案是繼續(xù)刷題。只要邊際回報(bào)率為正,即使是0+(向右趨近于0),學(xué)生也會(huì)刷題。在現(xiàn)行考評(píng)制度下,自學(xué)大學(xué)內(nèi)容的回報(bào)率可能還是負(fù)的[6]。
沒(méi)有額外教學(xué)環(huán)節(jié),刷題的提分效果有天花板
對(duì)于非天才而言,如果刷題有用,還要老師干嘛?因此,單純的練習(xí)(即使是帶文字講解的練習(xí))是有提分上限的;更高效的練習(xí)只是更早地碰到這個(gè)提分天花板而已。如果時(shí)間不夠,可能有人達(dá)不到這個(gè)天花板;但是對(duì)于大部分人而言,時(shí)間是充裕的。推薦非練習(xí)類(lèi)學(xué)習(xí)內(nèi)容?非常遺憾,這不是基于知識(shí)圖譜的自適應(yīng)學(xué)習(xí)系統(tǒng)能夠做的[7]。
成績(jī)提不上去的原因主要是不學(xué),而不是學(xué)了不會(huì)
大部分買(mǎi)了《五年三年》的學(xué)生并沒(méi)有啃完這個(gè)大部頭,因?yàn)樗麄內(nèi)狈ν瓿蛇@項(xiàng)艱巨任務(wù)所必須的動(dòng)機(jī)和毅力。盡管有證據(jù)顯示降低難度從而給與學(xué)渣更多的成就感可以增強(qiáng)他們的投入程度[8],但是從邏輯上講自適應(yīng)學(xué)習(xí)系統(tǒng)本身并不解決動(dòng)機(jī)問(wèn)題。
雖然改造《五年三年》是一個(gè)極端的例子,但是它是自適應(yīng)學(xué)習(xí)系統(tǒng)在K-12應(yīng)用困境的一個(gè)縮影。具體而言:
(1)因?yàn)椴还膭?lì)學(xué)習(xí)速度的差異化,所以提高速度沒(méi)有意義
每個(gè)學(xué)段都有按部就班的教學(xué)大綱,老師的考核以完成這個(gè)教學(xué)任務(wù)為準(zhǔn),而不是以最大化學(xué)生學(xué)習(xí)內(nèi)容為準(zhǔn)[9]。此外,因?yàn)楣降目剂亢蛶熧Y能力的限制,也不鼓勵(lì)學(xué)生根據(jù)自己的節(jié)奏學(xué)習(xí),學(xué)得快孩子還是得在終點(diǎn)線(xiàn)上等大部隊(duì)過(guò)來(lái)匯合[10]。
(2)對(duì)于教學(xué)指導(dǎo)而言,自適應(yīng)教學(xué)系統(tǒng)的分析粒度太粗
老師并不怎么關(guān)心粗粒度知識(shí)點(diǎn)的掌握狀況(比如一元二次方程的求根公式),而比較關(guān)心學(xué)生對(duì)于知識(shí)點(diǎn)細(xì)節(jié)的掌握(比如求根公式的b前面是不是忘記添加負(fù)號(hào))。分析引擎不能提供細(xì)粒度的教學(xué)數(shù)據(jù)支持,就無(wú)法切入教學(xué)環(huán)節(jié),提高教學(xué)質(zhì)量[11]。而之所以不能把老師批卷子的過(guò)程自動(dòng)化[12],事實(shí)上體現(xiàn)了算法對(duì)于學(xué)習(xí)行為的理解還是太少。
(3)不能解決學(xué)習(xí)興趣問(wèn)題
學(xué)習(xí)是承認(rèn)自己的無(wú)知,并拿出撞了南墻也不回頭的倔勁與自己的無(wú)知做斗爭(zhēng)的過(guò)程。除非對(duì)于所學(xué)內(nèi)容非常感興趣或者有超乎常人的意志力,否則學(xué)習(xí)就是一件反人性的事情。一個(gè)學(xué)生同時(shí)喜歡語(yǔ)數(shù)外+文綜三科或者理綜三科的概率小到可以忽略不計(jì);因此總有一科(或者幾科)對(duì)于學(xué)生而言是打心底里討厭,再怎么自適應(yīng)也是討厭。
超越基于知識(shí)圖譜的自適應(yīng)學(xué)習(xí)系統(tǒng)
籠統(tǒng)的說(shuō),學(xué)習(xí)數(shù)據(jù)分析要解決的大問(wèn)題是以下三個(gè):
(1)學(xué)生現(xiàn)在學(xué)成什么樣了?
(2)學(xué)生是怎么學(xué)的?
(3)老師是怎么教的?
任何一個(gè)學(xué)習(xí)淘寶/amazon/Netflix/今日頭條的推薦系統(tǒng),它都在第一個(gè)問(wèn)題上做功夫;因?yàn)樗仨氉鰞蓚€(gè)核心假設(shè):
(1)隱藏的偏好是穩(wěn)定的;
(2)系統(tǒng)的任務(wù)是識(shí)別并利用偏好,而不是改變偏好。
然而不幸的是,學(xué)習(xí)這件事違反了這兩個(gè)核心假設(shè)。知識(shí)點(diǎn)的掌握程度是可變的,因而不是穩(wěn)定的;學(xué)習(xí)系統(tǒng)的目的不僅在于識(shí)別知識(shí)點(diǎn)掌握程度的強(qiáng)弱,更在于讓學(xué)生習(xí)得其薄弱的知識(shí)點(diǎn)。如果說(shuō)第一個(gè)假設(shè)還是個(gè)技術(shù)問(wèn)題,那么第二個(gè)假設(shè)就是方向問(wèn)題了。讓我繼續(xù)用淘寶推薦的例子來(lái)解釋目前主流的推薦系統(tǒng)和學(xué)習(xí)推薦的核心差別。
假設(shè)明天教育部宣布,所有人都必須喜歡闊腿褲,而不能喜歡連衣裙。那么淘寶面臨的問(wèn)題是,怎么樣引導(dǎo)用戶(hù)通過(guò)一系列搜索行為,讓歡樂(lè)頌同款連衣裙的粉絲最后買(mǎi)了闊腿褲。我相信有過(guò)協(xié)同推薦算法經(jīng)驗(yàn)的同志看到這個(gè)問(wèn)題肯定是一臉蒙圈了,但是這就是學(xué)習(xí)推薦系統(tǒng)要解決的問(wèn)題。
教育部說(shuō)所有人都要掌握力的平衡,但是現(xiàn)在用戶(hù)就是對(duì)找力無(wú)感,怎么樣通過(guò)一系列題目的練習(xí)使得用戶(hù)變成力平衡小達(dá)人?這個(gè)問(wèn)題事實(shí)上涉及到我們對(duì)于學(xué)習(xí)過(guò)程的理解,而大多數(shù)情況下學(xué)習(xí)過(guò)程對(duì)于我們而言是一個(gè)黑盒。我也沒(méi)有看到哪家自適應(yīng)學(xué)習(xí)系統(tǒng)真正系統(tǒng)性地思考這個(gè)問(wèn)題。即使是行業(yè)標(biāo)桿,在推薦時(shí),主要以提高測(cè)評(píng)精度為主,而不是以提高教學(xué)效果為主。如果測(cè)評(píng)內(nèi)容和學(xué)習(xí)內(nèi)容的相關(guān)性不高,那么基于測(cè)評(píng)設(shè)計(jì)的自學(xué)推薦系統(tǒng)不能真正提分也不讓人驚奇。
從美國(guó)經(jīng)驗(yàn)來(lái)看,真正有效的學(xué)習(xí)推薦系統(tǒng)是從后兩個(gè)問(wèn)題入手的。這里介紹一個(gè)從第三個(gè)問(wèn)題入手的翹楚,Reasoning Mind[13]。Reasoning Mind將俄羅斯小學(xué)數(shù)學(xué)的紙質(zhì)教案變成類(lèi)似于人機(jī)對(duì)話(huà)的人工智能輔導(dǎo),不僅大大提高了學(xué)生的課堂投入時(shí)間(根據(jù)一項(xiàng)測(cè)評(píng)指標(biāo)投入度從60%提升到90%),而且多次在大范圍的隨機(jī)試驗(yàn)中獲得統(tǒng)計(jì)上顯著[14]的提分效果。而頗讓我震驚的是,Reasoning Mind事實(shí)上沒(méi)有任何比算平均分更復(fù)雜的測(cè)評(píng)技術(shù)。
整篇文章有些悲觀,因此末了來(lái)點(diǎn)雞湯提提神:
路漫漫其修遠(yuǎn)兮,吾將上下而求索。
注釋?zhuān)?/p>
[1]芥末堆有一系列文章介紹knewton系統(tǒng)(1/ 推薦原理+知識(shí)圖譜+連續(xù)適應(yīng)性+大數(shù)據(jù);2/ 從教學(xué)生應(yīng)試到適應(yīng)性學(xué)習(xí)平臺(tái),Knewton的轉(zhuǎn)型之路;3/ 作為自適應(yīng)學(xué)習(xí)平臺(tái)Knewton的系統(tǒng)是怎么運(yùn)作的)
[2]大部分在業(yè)界受尊重的自適應(yīng)學(xué)習(xí)系統(tǒng)是非盈利的,例如ASSISTment,Reasoning Mind,Khan Academy;唯一例外的ALEKS,其創(chuàng)始人在60+的高齡開(kāi)始創(chuàng)業(yè),也基本不是為了錢(qián)。Knewton已經(jīng)是一家值得尊敬的技術(shù)公司,但是還沒(méi)有成為一家受人尊敬的教育公司。
[3] Khan Academy在Gates Foundation資助的評(píng)估研究中乏善可陳。在美國(guó)教育評(píng)估的圣地WhatWorks Clearing House收錄的教育技術(shù)效果測(cè)評(píng)中,基本看不到自適應(yīng)學(xué)習(xí)系統(tǒng)的身影。各大服務(wù)提供商自己提供的效果評(píng)估一般會(huì)強(qiáng)調(diào)“效果和使用強(qiáng)度成正比”。
[4] Reasoning Mind可能是唯一數(shù)次通過(guò)大規(guī)模效果評(píng)價(jià)試驗(yàn)的,但是遺憾的是他們的自適應(yīng)學(xué)習(xí)系統(tǒng)并不基于知識(shí)圖譜。
[5]這里不考慮為了保持熟練度而進(jìn)行的重復(fù)練習(xí)。為了保證在考場(chǎng)上類(lèi)似于神經(jīng)反射的答題速度,重復(fù)做已經(jīng)掌握的題也有一定意義。
[6]特別是文科。
[7]因?yàn)闆](méi)有顯性的可觀察變量,因此無(wú)法將潛在的知識(shí)點(diǎn)掌握程度外化出來(lái),所以也無(wú)法進(jìn)入推薦系統(tǒng);除非施加額外的推薦規(guī)則。
[8]匯報(bào)這種情況的自適應(yīng)學(xué)習(xí)系統(tǒng)包括中國(guó)的學(xué)吧課堂和印度的embibe。這里的一個(gè)推論是老師的教學(xué)水平低于題目的文字解答。這種情況在自適應(yīng)學(xué)習(xí)系統(tǒng)用戶(hù)中的比率有多大是值得思考的。
[9]一個(gè)典型的反例是蒙特梭利式的教學(xué)組織方式,不用年齡而用學(xué)習(xí)能力來(lái)組織教學(xué)活動(dòng)
[10]典型的反例是美國(guó)的AP課程。我曾見(jiàn)到深圳某知名中學(xué)國(guó)際班的學(xué)生在高二就開(kāi)始學(xué)AP Calculus,這樣的速度差距在中國(guó)大部分學(xué)校是不可想象的。
[11]云校在這個(gè)方面做了許多工作。期待他們開(kāi)花結(jié)果,并且逼迫更多的教育公司模仿他們的做法。
[12]有種觀點(diǎn)認(rèn)為,批卷子這種看似低效的信息提取方式幫助了老師更好地理解了學(xué)生情況的詳細(xì)情況,這種內(nèi)化工程根本不應(yīng)該由算法來(lái)替代;否則會(huì)降低老師據(jù)此進(jìn)行“個(gè)性化”教學(xué)的能力。
[13] https://www.reasoningmind.org/
[14]一般在0.5個(gè)標(biāo)準(zhǔn)差左右,有一個(gè)實(shí)驗(yàn)獲得了1個(gè)標(biāo)準(zhǔn)差以上。
本文轉(zhuǎn)載自愛(ài)行知(微信公眾號(hào):k12edu-tech),作者馮俊晨。
來(lái)源:愛(ài)行知