圖片來源:Pexels
近年來,人工智能在社會生活的各個領域都得到了越來越廣泛的應用,如零售行業(yè)中分析消費者消費習慣的商業(yè)智能、汽車制造中的自動駕駛等。在教育領域,在線教育在過去十多年里飛速發(fā)展,積累了大量的數(shù)據(jù),為人工智能的研究奠定了數(shù)據(jù)基礎,也對人工智能的應用提出了新的需求。
一、人工智能在教育領域的主要應用
目前,人工智能在教育領域的應用主要包括四類:
第一類是“行為探測”,如考場的作弊監(jiān)控系統(tǒng)。類似的應用還有前不久新聞里報道的“魔鏡系統(tǒng)”,即通過人臉識別,實時探測學生是否在認真聽講。不過,是否應該在課堂教學中運用這樣的系統(tǒng)還存在很大爭議。
第二類應用被稱為“預測模型”,如通過學生學習過程中的行為數(shù)據(jù),預測學生是否有高輟學風險,或者預測學生成績是否及格等。已有的研究主要集中在MOOC領域。學者們使用學生上線時間、觀看視頻時間、次數(shù)、參與討論情況、作業(yè)提交情況等數(shù)據(jù),預測學生是否能完成某一課程,從而使教師能及早為有困難的學生提供幫助,提高MOOC的效率。
第三類應用為“學習模型”,如在線的自適應學習系統(tǒng),即根據(jù)學生興趣、學習能力、知識掌握情況等因素,為學生提供適宜的學習內(nèi)容。有一些研究試圖為學生提供符合其認知模式的學習內(nèi)容,如為對圖像敏感的學生提供以視覺刺激為主的學習資料,但目前研究者們還沒有發(fā)展出非常成熟的應用。
第四類應用“智能測評”與“學習模型”緊密相關。在自適應學習中,系統(tǒng)需要首先對學生的能力、知識掌握情況等進行測評。智能測評旨在以傳統(tǒng)測評無法比擬的效率,完成對學生的測評和診斷任務。
二、人工智能在教育測評的應用
智能測評包括人工智能在傳統(tǒng)測試的各個環(huán)節(jié)中的應用。教育測評的過程本質上是把某種潛在特質(看不見、摸不著又確實存在的能力、素養(yǎng)或心理特質)用一種科學的方法進行量化,用數(shù)值來表示被試在該項特質上的發(fā)展水平。傳統(tǒng)的測評主要有三個環(huán)節(jié):命題、答題和評分。人工智能在這三個環(huán)節(jié)中的應用即為機器命題、機器答題和自動評分。
1.機器命題
傳統(tǒng)命題是由學科專家或專業(yè)的命題人員,根據(jù)考試的目的,設計試題的過程。命題質量是決定整個測評質量的關鍵因素,整個試卷在內(nèi)容上應該是所有需要考評的內(nèi)容的代表性抽樣。試卷難度應當滿足測試目的:選拔性考試通常偏難,而達標考核的難度則依據(jù)相應標準來確定。
在線學習系統(tǒng)和計算機自適應考試的發(fā)展,大大增加了對試題數(shù)量的需求。一次傳統(tǒng)的紙筆考試可能只需要50題左右,但在自適應考試中,需要給每個考生不同的試題,所需的題目數(shù)量就成倍增加。同時,自適應考試和在線學習系統(tǒng)中測試的頻次往往較高,因此也需要更多的試題。傳統(tǒng)的命題成本較高,耗費時間較久,且存在一定的錯誤率,而機器命題能大幅節(jié)約命題成本,提高命題效率。此外,由于機器命題沒有泄露試題的風險,提高了考試安全性。因此,機器命題在過去十多年里得到了較快的發(fā)展。
機器命題有兩種主要的模式:強理論模型和弱理論模型。所謂強理論模型,是指在比較扎實的認知理論基礎上進行命題。比如部分數(shù)學題,解題所需要的能力可以分解為問題提煉、數(shù)學表達、運算執(zhí)行等幾個部分。通過分析一組類似試題的考生作答數(shù)據(jù),測量學專家們可以較為精確地計算出每個步驟的難度以及這個步驟在整個題目中的權重。隨后,計算機自動替換題目中的一個或幾個元素,生成新題。這樣的新題可以在“母題”的基礎上進行較多的變化,新的難度也在很大程度上可控。
不過,教育領域的大部分考試都缺少對應的認知理論支撐。因此,機器命題更多使用弱理論模型。具體過程大致如下:命題專家先找出性能好的題目作為母題,再對題目進行非常詳細的分析,構成多層次的題目模型,即把題目分解成背景、內(nèi)容、問題、輔助信息與選項等部分。接下來,專家再確定可以替換的部分。計算機先分析可替換部分的文本難度、問題的難度,再從語料庫和數(shù)據(jù)庫中找到合適的內(nèi)容,進行替換,形成新題。這類新題和母題的相似度很高,難度也基本保持不變。
數(shù)學和英語是機器命題應用較多的學科,特別是英語的語法和閱讀理解題,已經(jīng)有一些商業(yè)軟件可以完成命題。例如,“Item Distiller”軟件主要被用來命以單句為主的語法題,“EAQC(enhanced automatic question creator)”軟件則多用于命閱讀理解題。
盡管機器命題能節(jié)約成本,提高效率,但也存在一定的局限。首先,命題過程仍然離不開命題專家對母題的選擇和分析。其次,機器在設計干擾項時比較死板,只會依據(jù)母題的模版生成干擾項,而不會根據(jù)題目的特點重新設計。第三,由于開放性問題(如簡答題等)的標準答案設計需要另一套設計模型,機器命題目前也較少被用于此類問題。最后,機器命題十分依賴語料庫。英語的語料庫發(fā)展比較快,計算語言學的研究已經(jīng)完成了對詞的難度、詞和詞之間的距離等的量化,為機器命題奠定了良好的基礎。而對其他沒有成熟語料庫的語言來說,好的機器命題則難以實現(xiàn)。
2.自動評分
這里將要討論的評分不包括掃描儀讀取答題卡,而是指在傳統(tǒng)考試中需要由評分員進行打分的開放性問題,如口語考試、簡答題、作文題等。評分員打分耗時耗力,機器自動評分可以節(jié)約時間和成本,大大提高效率。
自動評分一般包括三個步驟。首先,要把語言或手寫的文字轉化為電腦可以讀取、分析的文本。這一步依賴自然語言處理系統(tǒng),目前中文也有一些軟件可以便捷地完成處理。
第二步,分析文本。常用的分析方法有兩種,一種被稱為“隱含語義分析”,另一種則是“人工神經(jīng)網(wǎng)絡”。所謂隱含語義分析,是指把被試的回答轉換成數(shù)字矩陣,計算與標準答案矩陣之間的距離。這種方法多用于簡答題。對于較長的回答,如作文,則更多使用人工神經(jīng)網(wǎng)絡。人工神經(jīng)網(wǎng)絡簡單說來就是找出本文的特征,如關鍵詞出現(xiàn)的頻率、復雜句式出現(xiàn)的頻率、連接詞的頻率等,根據(jù)本文的特征來完成打分。讓計算機學習已經(jīng)由專家完成了評分的答案,每一種分值都需要一定數(shù)量的案例,從而完成特征的選取。
最后一步就是打分。打分也有兩種方法:分類和回歸模型。當題目的分值較低時(如可能的得分是0到5分),分類法較為常用。計算機把被試的回答和已經(jīng)學習過的不同分值的回答進行對比,把回答歸入最接近的一組,就完成了打分。當題目的分值較高時(如高考中作文為60分),則多用回歸模型,即通過機器學習已經(jīng)由專家完成打分的大量案例,建立回歸模型。新的文本特征作為自變量“X”,通過回歸模型,計算出最終得分“Y”。
目前已經(jīng)有一些成熟的自動評分軟件,如“Project Essay Grade”,美國ETS開發(fā)的“E-Rater”等。新一代的評分軟件不僅可以完成評分,還能根據(jù)評分模型,給學生提出改進建議。當然,自動評分還存在很多局限。一方面,機器學習的資料是不同專家的評分,本身就存在一定的不一致性,因此,自動評分的結果與人工評分還會有一定的差異。另一方面,自動評分也十分依賴語料庫的建設,對于計算語言學沒有深入研究的語種,就難以建立比較精準的模型。此外,自動評分在面對“創(chuàng)作型寫作”時,往往很難給出準確的判斷。
3.機器答題
機器答題可以大大降低試測成本。在題庫建設中,所有的新題都需要經(jīng)過試測,計算其各項性能指標后,才能在實際考試中使用。招募被試進行試測需要花費大量時間和成本。此外,試測過程中,也可能存在考務安全的問題。目前也在大力加快題庫建設,但由于保密問題,很難實現(xiàn)在高考這樣的高利害考試中使用試測過的試題。機器答題也可以大大降低泄露試題的風險。機器答題的復雜程度更高,目前還沒有成熟的、商業(yè)化的應用。我國的科大訊飛正在積極研發(fā),日本、歐美也有一些團隊在進行研究。
三、人工智能與教育測評的未來研究方向
人工智能在命題、答題和評分中的研究和應用都在不斷推進過程中。但不少研究者認為,目前的這些應用沒有改變測評的基本內(nèi)容和形式,只在一定程度上降低了成本、提高了效率。在線學習平臺已經(jīng)積累的數(shù)據(jù),應該能夠支撐研究者們進行更多的探索,突破原有的測評方式,例如應用學習過程中的行為數(shù)據(jù)完成測試等。研究者們開創(chuàng)了一個新的領域——“分析測量學”,即通過大數(shù)據(jù)分析而非傳統(tǒng)的考試,對學生進行測評。
墨爾本大學教育學院的研究團隊已經(jīng)進行了初步的探索。他們通過分析學生在一項游戲化學習過程中的1600多個行為數(shù)據(jù),對學生的合作問題解決能力、批判性思維能力、創(chuàng)新領導力等幾項核心素養(yǎng)進行評估。分析測量學仍然遵循測量學的基本邏輯:首先要建立理論框架;隨后在學科和認知理論的基礎上,進行新型“命題”,即通過數(shù)據(jù)挖掘找到高相關的信息,同時通過傳統(tǒng)命題的思路賦予這些數(shù)據(jù)實踐意義;隨后再通過理論與數(shù)據(jù)結合的方式,對不同的行為進行評分;最后運用測量學模型估算被試的能力。這種“分析測量”將改變測試的場景、命題和評分方式,給測量領域帶來更具深遠意義的變革。
人工智能在高效實現(xiàn)個性化學習方面有著無可比擬的優(yōu)勢,未來在教育領域的應用必將更為廣泛。但在我們熱情迎接人工智能時代的同時,研究者和實踐者們?nèi)孕璞3种斏?。人類認知的拼圖還遠沒有拼完整,因此我們要理智地對待根據(jù)已有大數(shù)據(jù)得出的結論,防止推論過度泛化。此外,如何保護學生、教師和學校的隱私和秘密,合理使用數(shù)據(jù),也是急需我們思考和解決的問題。
本文轉自微信公眾號“中國教育財政”,作者黃曉婷,北京大學中國教育財政科學研究所副研究員。文章為作者獨立觀點,不代表芥末堆立場。
2、芥末堆不接受通過公關費、車馬費等任何形式發(fā)布失實文章,只呈現(xiàn)有價值的內(nèi)容給讀者;
3、如果你也從事教育,并希望被芥末堆報道,請您 填寫信息告訴我們。