芥末堆芥末堆

人工智能在教育測(cè)評(píng)領(lǐng)域的應(yīng)用與研究現(xiàn)狀

作者:中國(guó)教育財(cái)政 發(fā)布時(shí)間:

人工智能在教育測(cè)評(píng)領(lǐng)域的應(yīng)用與研究現(xiàn)狀

作者:中國(guó)教育財(cái)政 發(fā)布時(shí)間:

摘要:機(jī)器命題、機(jī)器答題和自動(dòng)評(píng)分

pexels-photo-669621.jpeg

圖片來(lái)源:Pexels

近年來(lái),人工智能在社會(huì)生活的各個(gè)領(lǐng)域都得到了越來(lái)越廣泛的應(yīng)用,如零售行業(yè)中分析消費(fèi)者消費(fèi)習(xí)慣的商業(yè)智能、汽車制造中的自動(dòng)駕駛等。在教育領(lǐng)域,在線教育在過(guò)去十多年里飛速發(fā)展,積累了大量的數(shù)據(jù),為人工智能的研究奠定了數(shù)據(jù)基礎(chǔ),也對(duì)人工智能的應(yīng)用提出了新的需求。

一、人工智能在教育領(lǐng)域的主要應(yīng)用

目前,人工智能在教育領(lǐng)域的應(yīng)用主要包括四類:

第一類是“行為探測(cè)”,如考場(chǎng)的作弊監(jiān)控系統(tǒng)。類似的應(yīng)用還有前不久新聞里報(bào)道的“魔鏡系統(tǒng)”,即通過(guò)人臉識(shí)別,實(shí)時(shí)探測(cè)學(xué)生是否在認(rèn)真聽(tīng)講。不過(guò),是否應(yīng)該在課堂教學(xué)中運(yùn)用這樣的系統(tǒng)還存在很大爭(zhēng)議。

第二類應(yīng)用被稱為“預(yù)測(cè)模型”,如通過(guò)學(xué)生學(xué)習(xí)過(guò)程中的行為數(shù)據(jù),預(yù)測(cè)學(xué)生是否有高輟學(xué)風(fēng)險(xiǎn),或者預(yù)測(cè)學(xué)生成績(jī)是否及格等。已有的研究主要集中在MOOC領(lǐng)域。學(xué)者們使用學(xué)生上線時(shí)間、觀看視頻時(shí)間、次數(shù)、參與討論情況、作業(yè)提交情況等數(shù)據(jù),預(yù)測(cè)學(xué)生是否能完成某一課程,從而使教師能及早為有困難的學(xué)生提供幫助,提高M(jìn)OOC的效率。

第三類應(yīng)用為“學(xué)習(xí)模型”,如在線的自適應(yīng)學(xué)習(xí)系統(tǒng),即根據(jù)學(xué)生興趣、學(xué)習(xí)能力、知識(shí)掌握情況等因素,為學(xué)生提供適宜的學(xué)習(xí)內(nèi)容。有一些研究試圖為學(xué)生提供符合其認(rèn)知模式的學(xué)習(xí)內(nèi)容,如為對(duì)圖像敏感的學(xué)生提供以視覺(jué)刺激為主的學(xué)習(xí)資料,但目前研究者們還沒(méi)有發(fā)展出非常成熟的應(yīng)用。

第四類應(yīng)用“智能測(cè)評(píng)”與“學(xué)習(xí)模型”緊密相關(guān)。在自適應(yīng)學(xué)習(xí)中,系統(tǒng)需要首先對(duì)學(xué)生的能力、知識(shí)掌握情況等進(jìn)行測(cè)評(píng)。智能測(cè)評(píng)旨在以傳統(tǒng)測(cè)評(píng)無(wú)法比擬的效率,完成對(duì)學(xué)生的測(cè)評(píng)和診斷任務(wù)。

二、人工智能在教育測(cè)評(píng)的應(yīng)用

智能測(cè)評(píng)包括人工智能在傳統(tǒng)測(cè)試的各個(gè)環(huán)節(jié)中的應(yīng)用。教育測(cè)評(píng)的過(guò)程本質(zhì)上是把某種潛在特質(zhì)(看不見(jiàn)、摸不著又確實(shí)存在的能力、素養(yǎng)或心理特質(zhì))用一種科學(xué)的方法進(jìn)行量化,用數(shù)值來(lái)表示被試在該項(xiàng)特質(zhì)上的發(fā)展水平。傳統(tǒng)的測(cè)評(píng)主要有三個(gè)環(huán)節(jié):命題、答題和評(píng)分。人工智能在這三個(gè)環(huán)節(jié)中的應(yīng)用即為機(jī)器命題、機(jī)器答題和自動(dòng)評(píng)分。

1.機(jī)器命題

傳統(tǒng)命題是由學(xué)科專家或?qū)I(yè)的命題人員,根據(jù)考試的目的,設(shè)計(jì)試題的過(guò)程。命題質(zhì)量是決定整個(gè)測(cè)評(píng)質(zhì)量的關(guān)鍵因素,整個(gè)試卷在內(nèi)容上應(yīng)該是所有需要考評(píng)的內(nèi)容的代表性抽樣。試卷難度應(yīng)當(dāng)滿足測(cè)試目的:選拔性考試通常偏難,而達(dá)標(biāo)考核的難度則依據(jù)相應(yīng)標(biāo)準(zhǔn)來(lái)確定。

在線學(xué)習(xí)系統(tǒng)和計(jì)算機(jī)自適應(yīng)考試的發(fā)展,大大增加了對(duì)試題數(shù)量的需求。一次傳統(tǒng)的紙筆考試可能只需要50題左右,但在自適應(yīng)考試中,需要給每個(gè)考生不同的試題,所需的題目數(shù)量就成倍增加。同時(shí),自適應(yīng)考試和在線學(xué)習(xí)系統(tǒng)中測(cè)試的頻次往往較高,因此也需要更多的試題。傳統(tǒng)的命題成本較高,耗費(fèi)時(shí)間較久,且存在一定的錯(cuò)誤率,而機(jī)器命題能大幅節(jié)約命題成本,提高命題效率。此外,由于機(jī)器命題沒(méi)有泄露試題的風(fēng)險(xiǎn),提高了考試安全性。因此,機(jī)器命題在過(guò)去十多年里得到了較快的發(fā)展。

機(jī)器命題有兩種主要的模式:強(qiáng)理論模型和弱理論模型。所謂強(qiáng)理論模型,是指在比較扎實(shí)的認(rèn)知理論基礎(chǔ)上進(jìn)行命題。比如部分?jǐn)?shù)學(xué)題,解題所需要的能力可以分解為問(wèn)題提煉、數(shù)學(xué)表達(dá)、運(yùn)算執(zhí)行等幾個(gè)部分。通過(guò)分析一組類似試題的考生作答數(shù)據(jù),測(cè)量學(xué)專家們可以較為精確地計(jì)算出每個(gè)步驟的難度以及這個(gè)步驟在整個(gè)題目中的權(quán)重。隨后,計(jì)算機(jī)自動(dòng)替換題目中的一個(gè)或幾個(gè)元素,生成新題。這樣的新題可以在“母題”的基礎(chǔ)上進(jìn)行較多的變化,新的難度也在很大程度上可控。

不過(guò),教育領(lǐng)域的大部分考試都缺少對(duì)應(yīng)的認(rèn)知理論支撐。因此,機(jī)器命題更多使用弱理論模型。具體過(guò)程大致如下:命題專家先找出性能好的題目作為母題,再對(duì)題目進(jìn)行非常詳細(xì)的分析,構(gòu)成多層次的題目模型,即把題目分解成背景、內(nèi)容、問(wèn)題、輔助信息與選項(xiàng)等部分。接下來(lái),專家再確定可以替換的部分。計(jì)算機(jī)先分析可替換部分的文本難度、問(wèn)題的難度,再?gòu)恼Z(yǔ)料庫(kù)和數(shù)據(jù)庫(kù)中找到合適的內(nèi)容,進(jìn)行替換,形成新題。這類新題和母題的相似度很高,難度也基本保持不變。

數(shù)學(xué)和英語(yǔ)是機(jī)器命題應(yīng)用較多的學(xué)科,特別是英語(yǔ)的語(yǔ)法和閱讀理解題,已經(jīng)有一些商業(yè)軟件可以完成命題。例如,“Item Distiller”軟件主要被用來(lái)命以單句為主的語(yǔ)法題,“EAQC(enhanced automatic question creator)”軟件則多用于命閱讀理解題。

盡管機(jī)器命題能節(jié)約成本,提高效率,但也存在一定的局限。首先,命題過(guò)程仍然離不開(kāi)命題專家對(duì)母題的選擇和分析。其次,機(jī)器在設(shè)計(jì)干擾項(xiàng)時(shí)比較死板,只會(huì)依據(jù)母題的模版生成干擾項(xiàng),而不會(huì)根據(jù)題目的特點(diǎn)重新設(shè)計(jì)。第三,由于開(kāi)放性問(wèn)題(如簡(jiǎn)答題等)的標(biāo)準(zhǔn)答案設(shè)計(jì)需要另一套設(shè)計(jì)模型,機(jī)器命題目前也較少被用于此類問(wèn)題。最后,機(jī)器命題十分依賴語(yǔ)料庫(kù)。英語(yǔ)的語(yǔ)料庫(kù)發(fā)展比較快,計(jì)算語(yǔ)言學(xué)的研究已經(jīng)完成了對(duì)詞的難度、詞和詞之間的距離等的量化,為機(jī)器命題奠定了良好的基礎(chǔ)。而對(duì)其他沒(méi)有成熟語(yǔ)料庫(kù)的語(yǔ)言來(lái)說(shuō),好的機(jī)器命題則難以實(shí)現(xiàn)。

2.自動(dòng)評(píng)分

這里將要討論的評(píng)分不包括掃描儀讀取答題卡,而是指在傳統(tǒng)考試中需要由評(píng)分員進(jìn)行打分的開(kāi)放性問(wèn)題,如口語(yǔ)考試、簡(jiǎn)答題、作文題等。評(píng)分員打分耗時(shí)耗力,機(jī)器自動(dòng)評(píng)分可以節(jié)約時(shí)間和成本,大大提高效率。

自動(dòng)評(píng)分一般包括三個(gè)步驟。首先,要把語(yǔ)言或手寫(xiě)的文字轉(zhuǎn)化為電腦可以讀取、分析的文本。這一步依賴自然語(yǔ)言處理系統(tǒng),目前中文也有一些軟件可以便捷地完成處理。

第二步,分析文本。常用的分析方法有兩種,一種被稱為“隱含語(yǔ)義分析”,另一種則是“人工神經(jīng)網(wǎng)絡(luò)”。所謂隱含語(yǔ)義分析,是指把被試的回答轉(zhuǎn)換成數(shù)字矩陣,計(jì)算與標(biāo)準(zhǔn)答案矩陣之間的距離。這種方法多用于簡(jiǎn)答題。對(duì)于較長(zhǎng)的回答,如作文,則更多使用人工神經(jīng)網(wǎng)絡(luò)。人工神經(jīng)網(wǎng)絡(luò)簡(jiǎn)單說(shuō)來(lái)就是找出本文的特征,如關(guān)鍵詞出現(xiàn)的頻率、復(fù)雜句式出現(xiàn)的頻率、連接詞的頻率等,根據(jù)本文的特征來(lái)完成打分。讓計(jì)算機(jī)學(xué)習(xí)已經(jīng)由專家完成了評(píng)分的答案,每一種分值都需要一定數(shù)量的案例,從而完成特征的選取。

最后一步就是打分。打分也有兩種方法:分類和回歸模型。當(dāng)題目的分值較低時(shí)(如可能的得分是0到5分),分類法較為常用。計(jì)算機(jī)把被試的回答和已經(jīng)學(xué)習(xí)過(guò)的不同分值的回答進(jìn)行對(duì)比,把回答歸入最接近的一組,就完成了打分。當(dāng)題目的分值較高時(shí)(如高考中作文為60分),則多用回歸模型,即通過(guò)機(jī)器學(xué)習(xí)已經(jīng)由專家完成打分的大量案例,建立回歸模型。新的文本特征作為自變量“X”,通過(guò)回歸模型,計(jì)算出最終得分“Y”。

目前已經(jīng)有一些成熟的自動(dòng)評(píng)分軟件,如“Project Essay Grade”,美國(guó)ETS開(kāi)發(fā)的“E-Rater”等。新一代的評(píng)分軟件不僅可以完成評(píng)分,還能根據(jù)評(píng)分模型,給學(xué)生提出改進(jìn)建議。當(dāng)然,自動(dòng)評(píng)分還存在很多局限。一方面,機(jī)器學(xué)習(xí)的資料是不同專家的評(píng)分,本身就存在一定的不一致性,因此,自動(dòng)評(píng)分的結(jié)果與人工評(píng)分還會(huì)有一定的差異。另一方面,自動(dòng)評(píng)分也十分依賴語(yǔ)料庫(kù)的建設(shè),對(duì)于計(jì)算語(yǔ)言學(xué)沒(méi)有深入研究的語(yǔ)種,就難以建立比較精準(zhǔn)的模型。此外,自動(dòng)評(píng)分在面對(duì)“創(chuàng)作型寫(xiě)作”時(shí),往往很難給出準(zhǔn)確的判斷。

3.機(jī)器答題

機(jī)器答題可以大大降低試測(cè)成本。在題庫(kù)建設(shè)中,所有的新題都需要經(jīng)過(guò)試測(cè),計(jì)算其各項(xiàng)性能指標(biāo)后,才能在實(shí)際考試中使用。招募被試進(jìn)行試測(cè)需要花費(fèi)大量時(shí)間和成本。此外,試測(cè)過(guò)程中,也可能存在考務(wù)安全的問(wèn)題。目前也在大力加快題庫(kù)建設(shè),但由于保密問(wèn)題,很難實(shí)現(xiàn)在高考這樣的高利害考試中使用試測(cè)過(guò)的試題。機(jī)器答題也可以大大降低泄露試題的風(fēng)險(xiǎn)。機(jī)器答題的復(fù)雜程度更高,目前還沒(méi)有成熟的、商業(yè)化的應(yīng)用。我國(guó)的科大訊飛正在積極研發(fā),日本、歐美也有一些團(tuán)隊(duì)在進(jìn)行研究。

三、人工智能與教育測(cè)評(píng)的未來(lái)研究方向

人工智能在命題、答題和評(píng)分中的研究和應(yīng)用都在不斷推進(jìn)過(guò)程中。但不少研究者認(rèn)為,目前的這些應(yīng)用沒(méi)有改變測(cè)評(píng)的基本內(nèi)容和形式,只在一定程度上降低了成本、提高了效率。在線學(xué)習(xí)平臺(tái)已經(jīng)積累的數(shù)據(jù),應(yīng)該能夠支撐研究者們進(jìn)行更多的探索,突破原有的測(cè)評(píng)方式,例如應(yīng)用學(xué)習(xí)過(guò)程中的行為數(shù)據(jù)完成測(cè)試等。研究者們開(kāi)創(chuàng)了一個(gè)新的領(lǐng)域——“分析測(cè)量學(xué)”,即通過(guò)大數(shù)據(jù)分析而非傳統(tǒng)的考試,對(duì)學(xué)生進(jìn)行測(cè)評(píng)。

墨爾本大學(xué)教育學(xué)院的研究團(tuán)隊(duì)已經(jīng)進(jìn)行了初步的探索。他們通過(guò)分析學(xué)生在一項(xiàng)游戲化學(xué)習(xí)過(guò)程中的1600多個(gè)行為數(shù)據(jù),對(duì)學(xué)生的合作問(wèn)題解決能力、批判性思維能力、創(chuàng)新領(lǐng)導(dǎo)力等幾項(xiàng)核心素養(yǎng)進(jìn)行評(píng)估。分析測(cè)量學(xué)仍然遵循測(cè)量學(xué)的基本邏輯:首先要建立理論框架;隨后在學(xué)科和認(rèn)知理論的基礎(chǔ)上,進(jìn)行新型“命題”,即通過(guò)數(shù)據(jù)挖掘找到高相關(guān)的信息,同時(shí)通過(guò)傳統(tǒng)命題的思路賦予這些數(shù)據(jù)實(shí)踐意義;隨后再通過(guò)理論與數(shù)據(jù)結(jié)合的方式,對(duì)不同的行為進(jìn)行評(píng)分;最后運(yùn)用測(cè)量學(xué)模型估算被試的能力。這種“分析測(cè)量”將改變測(cè)試的場(chǎng)景、命題和評(píng)分方式,給測(cè)量領(lǐng)域帶來(lái)更具深遠(yuǎn)意義的變革。

人工智能在高效實(shí)現(xiàn)個(gè)性化學(xué)習(xí)方面有著無(wú)可比擬的優(yōu)勢(shì),未來(lái)在教育領(lǐng)域的應(yīng)用必將更為廣泛。但在我們熱情迎接人工智能時(shí)代的同時(shí),研究者和實(shí)踐者們?nèi)孕璞3种?jǐn)慎。人類認(rèn)知的拼圖還遠(yuǎn)沒(méi)有拼完整,因此我們要理智地對(duì)待根據(jù)已有大數(shù)據(jù)得出的結(jié)論,防止推論過(guò)度泛化。此外,如何保護(hù)學(xué)生、教師和學(xué)校的隱私和秘密,合理使用數(shù)據(jù),也是急需我們思考和解決的問(wèn)題。

本文轉(zhuǎn)自微信公眾號(hào)“中國(guó)教育財(cái)政”,作者黃曉婷,北京大學(xué)中國(guó)教育財(cái)政科學(xué)研究所副研究員。文章為作者獨(dú)立觀點(diǎn),不代表芥末堆立場(chǎng)。

1、本文是 芥末堆網(wǎng)轉(zhuǎn)載文章,原文:中國(guó)教育財(cái)政;
2、如果你也從事教育,并希望被芥末堆報(bào)道,請(qǐng)您 填寫(xiě)信息告訴我們。
來(lái)源:中國(guó)教育財(cái)政
芥末堆商務(wù)合作:王老師 18710003484
  • 人工智能在教育測(cè)評(píng)領(lǐng)域的應(yīng)用與研究現(xiàn)狀分享二維碼