(圖片來源:Pixabay)
自適應學習(adaptive learning)的概念在國內(nèi)甚是火熱,教育創(chuàng)業(yè)公司的BP里不寫個“大數(shù)據(jù)驅(qū)動的自適應學習”都不好意思跟投資人打招呼。它既有現(xiàn)代“大數(shù)據(jù)”+“機器學習”的炫酷外衣,又暗合儒家傳統(tǒng)中“因材施教”的內(nèi)家功夫,豈有不火的道理。
但是究竟什么是自適應學習系統(tǒng)?怎么做個性化學習推薦?不僅許多教育創(chuàng)業(yè)公司的公關(guān)文語焉不詳,行業(yè)內(nèi)領(lǐng)先的個性化學習服務(wù)提供商也諱莫如深[1][2]。本文試圖以平易近人的方式來演繹這兩個問題的答案。之所以說是“演繹”,一方面是因為文章為提高可讀性而犧牲了嚴謹性,各位專家請勿較真。另一方面,諸位看官若自己讀出業(yè)界奧秘,我不得不聲明“本文內(nèi)容純屬虛構(gòu),如有雷同,純屬見鬼”。
言歸正傳,作為教學行業(yè)的有為青年,在這個萬眾創(chuàng)業(yè)的大潮之中,你也躍躍欲試。你準備把個性化教育推薦作為創(chuàng)業(yè)方向。于是你找來在淘寶這個中國最成功的推薦系統(tǒng)(之一)中浸淫多年的好兄弟陶小二叫來一起商議。
萊布尼茨1.0版本:隱狀態(tài)的推斷
陶小二說,讓我們從基礎(chǔ)開始。假設(shè)有個親在我店里買了一件“歡樂頌安迪同款連衣裙”,我該怎么為用戶推薦下一個產(chǎn)品?首先我猜測這個親是“歡樂頌安迪”的粉絲,因此可以向她推薦其他“歡樂頌安迪”的服飾。這個親是不是“歡樂頌安迪”的粉絲并不能被你觀察到,而是一個不可見的潛在狀態(tài),稱之為隱變量(Latent state)。但是我們可以觀察到她的購買行為,這是顯示行為(observedbehavior)。通過顯示行為來猜測隱變量的取值,就是推斷(inference)。推斷用戶的偏好,并加以利用,是推薦算法的內(nèi)核。
于是你想到,1.0的萊布尼茨系統(tǒng)應該具備通過題目推斷知識點掌握程度的能力。一個學生做錯了一道一元二次方程求根的題。我們應該在這個知識點上推薦更多的題。盡管學生對于“一元二次方程求根公式”這個知識點的掌握程度是不可觀測的隱變量,但是學生做題的結(jié)果是可以觀測的顯示行為。如果能通過做題結(jié)果判斷學生薄弱知識點,那么就可以有針對性的推薦學習內(nèi)容。
但是這也意味著一個知識點下要儲備相當數(shù)量的習題,這些題目哪里來?是不是要考慮針對各地考試風格差異化?是不是考慮題目的教學價值和用戶體驗?這么粗的大腿要去哪兒抱呢?抱不到大腿,線上扒題,會不會因為版權(quán)問題被告的內(nèi)褲都賠掉?
萊布尼茨2.0版本:基于知識圖譜的推薦
正當你苦思不得解之時,陶小二繼續(xù)侃侃而談:我進一步猜測這個親可能是劉濤粉,因此可能粉劉濤演的其他影視作品,我可以向她這些劇的同款。當然我還可以猜測這個親是歡樂頌粉,因此可能粉歡樂頌其他角色,我可以向她推薦這些角色中的同款。如果我構(gòu)建的“知識圖譜”是靠譜的,用戶的確有愛屋及烏的行為模式,那么即使沒有這個親在這些款式上的搜索數(shù)據(jù),也可以進行有效的偏好推斷。推薦系統(tǒng)的核心優(yōu)勢在于理解用戶的消費行為模式[3],從而見微知著,洞察人心,無中生有。
你想此言甚是。假設(shè)我們構(gòu)建的知識圖譜中“一元二次方程的一般形式”是“一元二次方程求根公式”的前置知識點,“一元二次方程根的個數(shù)”是它的后置知識點。當學生做錯了一元二次方程求根的問題,可以猜測是否其前置知識點出了問題,因此應該推薦以便于診斷;當學生做對了一元二次方程求根的問題,可以猜測是否其后置知識點也已經(jīng)掌握,因此應該推薦以便于鞏固。做錯時沿著知識圖譜向上游推薦,做對時沿著知識圖譜向下游推薦,聽上去似乎很美[4]。
但是如何知道這個知識圖譜是正確的?求根公式是不是可以繼續(xù)被切分成“根的判別式”和“一元二次方程的根”兩個小知識點?正確使用求根公式需要分類討論的數(shù)學思想,數(shù)學思想應不應該被列入“知識圖譜”?求根公式的計算需要“開根運算”,求根公式的推導需要“配方法解方程”,這些是不是應該列為前置知識點?知識圖譜的粒度、廣度和連接度看上去是一個深不見底的天坑[5]。
萊布尼茨3.0版本:建立內(nèi)容和知識圖譜的拓撲關(guān)系
當你又陷入苦思時,陶小二一拍大腿說,壞了,之前我只看見了“歡樂頌安迪同款”,而完全忽略“連衣裙”這個關(guān)鍵詞。增加了這個新關(guān)鍵詞后,可能有兩種改進方向:第一,假如這個親并不是任何粉,只是想買一條連衣裙,兩個關(guān)鍵詞對應到這個產(chǎn)品的關(guān)系是“或”:因此,推薦中應該增加其他與歡樂頌無關(guān)的連衣裙產(chǎn)品。第二,假如這個親既是粉,又想買一條連衣裙,兩個關(guān)鍵詞對應到這個產(chǎn)品的關(guān)系是“與”:因此,推薦中應該高亮既是歡樂頌安迪同款又是連衣裙的產(chǎn)品。
你砸吧了一下陶小二的話,不禁心里叫一聲“苦也”。這意味著萊布尼茨3.0版本不僅要正確繪制知識圖譜,而且要正確地建立內(nèi)容和知識圖譜的拓撲關(guān)系[6];這事兒可不好辦。你回想了一道一元二次方程的簡單應用題:
假設(shè)籬笆總長10米,一面靠墻,圍成菜園的面積是12平米;這個菜園的長是多少?
這題的知識點可以被標注為長方形面積+一元二次方程的求根公式。但是,這題也可以用因式分解來解答。因此,這題的知識點打法也可以是長方形面積+因式分解求根。這兩種解法內(nèi)部是乘法關(guān)系(即必須都掌握才能解出這道題),兩種解法之間是加法關(guān)系(掌握至少一種就可以解出這道題)[7]。此外,可能出現(xiàn)學生三個知識點的計算都沒有問題,但是在這道題上就是不能夠把問題表述為一個一元二次方程:數(shù)學建模的能力應該如何標記?[8]
尾聲:萊布尼茨的誕生
和陶小二商談得越久,你越覺得做一個靠譜的個性化學習推薦系統(tǒng)實在太不靠譜了。正當你為此神傷時,隔壁王大爺朗聲道:傻小子,學習推薦這事兒還不好做;不是太難,不是太容易,不就完了么!你一聽,如夢方醒。陶小二這套,家長那兒說不清,投資人那兒聽不懂,怎么搞錢。王大爺大道至簡,大智若愚,真是一語道破天機!
當媒體記者在你融資成功的發(fā)布會上問你這款以知名數(shù)學家命名的個性化學習產(chǎn)品的魅力何在時,你淡淡地說:
我們采用美國ETS的成熟技術(shù)[9],對于海量教育大數(shù)據(jù)進行深度挖掘,為用戶提供了難度適宜的精準教育學習服務(wù)。
記者聞之,臉上露出了既迷茫又尊敬的神色。
[1]唯一例外的是在國內(nèi)默默無名卻被麥格勞希爾高價收購的ALEKS(Adaptive LEarning Knowledge Space)。這個系統(tǒng)早在1990年左右就公布了其核心技術(shù)的概要,在2000年就基本披露其技術(shù)的實現(xiàn)和存在的問題。Khan Academy有一段時間開源了其代碼,其核心人員也披露了早期的測評技術(shù)方案,但是KA的自適應主要靠用戶自選,而不是算法推薦
[2]萊布尼茨的對頭的白皮書是可以Google/Bing得到的,但它并沒有介紹實質(zhì)性的技術(shù)細節(jié)。
[3]事實上商業(yè)推薦系統(tǒng)一般不基于知識圖譜做關(guān)聯(lián)推薦。關(guān)聯(lián)推薦最常見的是基于物品特征的關(guān)聯(lián)推薦以及基于用戶行為的關(guān)聯(lián)推薦(例如買了物品A的還買了物品B)。這里為了劇情需要,強行拉郎配了。
[4]事實上在Probabilistic Graph Model中,假定正確的結(jié)構(gòu),節(jié)點上下游的隱變量的后驗狀態(tài)都可以改變,而不局限于做錯推上游,做對推下游的邏輯。這個推薦邏輯結(jié)合了教學方法。
[5]知識表達(Knowledge Representation)是一個單獨的研究領(lǐng)域,已經(jīng)有前人做了相當深入的研究。但是在學習領(lǐng)域,知識圖譜是否普世,是否可以不依賴于單純的專家系統(tǒng),都是懸而未決的問題。從實踐來看,即使是萊布尼茨的死對頭創(chuàng)制的知識圖譜,也未能盡如人意。
[6]萊布尼茨的死對頭事實上不解決拓撲關(guān)系問題,主要是大洋彼岸的題目在知識點整合上不如大陸這般喪心病狂
[7]在默認長寬是整數(shù)的前提下,可以使用窮舉法,跳過一元二次方程的相關(guān)知識!
[8]正確標記拓撲關(guān)系對于精確估計學生的知識點掌握程度至關(guān)重要。這里涉及到復雜的數(shù)學和統(tǒng)計學知識,我們只舉一個最簡單的例子。假設(shè)一個題目被標記為知識點A和知識點B的乘法原理,我們知道學生在這道題上的正確率是16%。那么可能有兩種推斷:知識點A掌握程度是80%和知識點B掌握程度是20%,知識點A掌握程度是20%和知識點B掌握程度是80% 。盡管這兩種推斷是等效的(observational equivalent),但是它們的教學含義差別極大。
當然,知識點A和B的具體掌握程度可以用多道知識點結(jié)構(gòu)不同的題目來交叉推斷,但是從實際操作層面來講,這就增加了更多不確定性:所有題目的知識點要標記準確,其拓撲方式也要標記準確,一個學生完成了足夠多的多樣化的題目來確保參數(shù)估計的收斂。
[9]我并不認為IRT本身是一個劣于PGM的技術(shù)。恰恰相反,從測評的角度出發(fā),我認為IRT是一個在建模上更為精煉,在估計上更為精確,在實踐中更為有效的技術(shù)。黑一下IRT,是因為很多系統(tǒng)在IRT技術(shù)上至少晚ETS20年,一些系統(tǒng)可能要晚30年。關(guān)于IRT在教育測評領(lǐng)域運用的一個全面介紹和嚴謹評價,請參見:
https://www.ets.org/research/policy_research_reports/publications/report/2013/jrmd
本文轉(zhuǎn)載自愛行知,作者馮俊晨
2、芥末堆不接受通過公關(guān)費、車馬費等任何形式發(fā)布失實文章,只呈現(xiàn)有價值的內(nèi)容給讀者;
3、如果你也從事教育,并希望被芥末堆報道,請您 填寫信息告訴我們。