芥末堆芥末堆

PISA 怎樣評價(jià)學(xué)生的“素養(yǎng)”

作者:黃曉婷 發(fā)布時(shí)間:

PISA 怎樣評價(jià)學(xué)生的“素養(yǎng)”

作者:黃曉婷 發(fā)布時(shí)間:

摘要:PISA 遠(yuǎn)不止于一個簡單的排名。

aaron-burden-36113.jpg

圖片來源:Unsplash

近期,國際學(xué)生評估項(xiàng)目(PISA,Programme for International Student Assessment)公布了 2015 年的測試結(jié)果,引起了社會各界的廣泛關(guān)注。然而,它的意義和價(jià)值遠(yuǎn)不止于一個簡單的排名。國際學(xué)生評估項(xiàng)目作為目前參與最廣、最具影響力的國際大型標(biāo)準(zhǔn)化測試,其測試?yán)砟詈蜏y量技術(shù)都處于教育測評領(lǐng)域的前沿,可以為我國的考試評價(jià)改革提供借鑒。

1  以對能力和素養(yǎng)的考查為目的,并提供了整套方法

國際學(xué)生評估項(xiàng)目的考核重點(diǎn)不是學(xué)生對課程內(nèi)容的掌握程度,而是評價(jià)學(xué)生在閱讀、數(shù)學(xué)和科學(xué)三方面的“素養(yǎng)”(literacy)。由于國際學(xué)生評估項(xiàng)目的測試對象不是某一個年級,而是15歲3個月到16歲2個月的學(xué)生,跨了至少兩個年級,且不同國家和地區(qū)使用的教材也不同,因此考核“素養(yǎng)”是其唯一理性的選擇。這種考查目的和方式,對于解決現(xiàn)有高考和中考帶來的“死記硬背”弊端無疑是極有意義的。

國際學(xué)生評估項(xiàng)目將“素養(yǎng)”定義為學(xué)生在生活情境中應(yīng)用相關(guān)知識和技能的能力。例如,2015年重點(diǎn)考查的科學(xué)素養(yǎng)被定義為作為公民參與科技相關(guān)的事務(wù)的能力,包括解決生活中與科學(xué)技術(shù)相關(guān)的問題,并有科學(xué)探究的意識,會科學(xué)反思等。與傳統(tǒng)的學(xué)科測試相比,國際學(xué)生評估項(xiàng)目強(qiáng)調(diào)學(xué)生終身學(xué)習(xí)和未來職業(yè)發(fā)展所需的應(yīng)用知識的能力和批評思維能力。我國新一輪基礎(chǔ)教育課程改革也提出了把問題解決、批判思維等能力培養(yǎng)與學(xué)科知識相結(jié)合的理念,然而目前絕大多數(shù)的標(biāo)準(zhǔn)化考試仍然拘泥于考查課本里的知識點(diǎn),與國務(wù)院考試招生制度改革方案要求的重點(diǎn)考查運(yùn)用所學(xué)知識發(fā)現(xiàn)問題和解決問題的能力還存在不小差距,而國際學(xué)生評估項(xiàng)目為我們提供了范本。

2  提供了命題組考科學(xué)化和規(guī)范化的范本

國際學(xué)生評估項(xiàng)目的測試框架由測量專業(yè)人員和多國學(xué)科專家共同制定,專家組對素養(yǎng)的各個維度進(jìn)行十分詳盡的闡述。例如,2015年重點(diǎn)考查的科學(xué)素養(yǎng),其測試框架為在社會生活背景下的科學(xué)能力、知識和態(tài)度。具體來說,社會生活背景包括個人、地區(qū)和全球三個層次;能力包括科學(xué)地解釋現(xiàn)象、設(shè)計(jì)和評估科學(xué)研究的方法、解釋數(shù)據(jù)和論據(jù)三個方面;知識包括事實(shí)性、過程性和認(rèn)知性三類;而態(tài)度則包括對科學(xué)技術(shù)、環(huán)境和科學(xué)研究的方法三方面。在這一框架下,專家組確定測試藍(lán)圖,即嚴(yán)格規(guī)定三個層次的背景下,三種能力和三類知識分別占多少比重,不同難度的試題分別占多少比重等??蚣艿募?xì)致劃分使得組卷的隨意性大幅降低,可以在很大程度上確保測試的內(nèi)容效度。此外,測試框架經(jīng)過反復(fù)的討論修改,最終確定后會在一段時(shí)間內(nèi)保持穩(wěn)定,從而使得不同年份測試內(nèi)容的可比性大大提高,為各國分析本國在一段時(shí)間內(nèi)的發(fā)展變化提供了基礎(chǔ)。

國際學(xué)生評估項(xiàng)目的命題和組卷過程也與我們較多依賴命題人員經(jīng)驗(yàn)的做法不同,它在更大程度上結(jié)合了專家意見和客觀數(shù)據(jù)。大致來說,第一輪由專業(yè)命題人員和各國學(xué)科專家提供實(shí)際測試題目4倍左右的試題,之后經(jīng)過專家組“磨題”和小規(guī)模施測,選出其中在內(nèi)容和難度上更為適切的1/2左右的試題。各國進(jìn)行翻譯和本土化后,選擇1000名左右的學(xué)生參加國際學(xué)生評估項(xiàng)目在本國的試測,測量專業(yè)人員對試測數(shù)據(jù)進(jìn)行細(xì)致的分析,包括題目的難度、區(qū)分度、與統(tǒng)計(jì)模型的擬合度、對不同性別和不同地區(qū)學(xué)生的公平性等。依據(jù)試測數(shù)據(jù)的分析結(jié)果,選擇內(nèi)容和難度適宜、國際可比性等各方面性能良好的題目,組成最終測試的試卷。這種做法保障了實(shí)測試題的質(zhì)量,也在很大程度上保證了測試的信度。

3  運(yùn)用最新考試評價(jià)技術(shù),科學(xué)性與公平性有機(jī)統(tǒng)一

在測試結(jié)果的計(jì)算方面,國際學(xué)生評估項(xiàng)目運(yùn)用了項(xiàng)目反應(yīng)理論模型。使用項(xiàng)目反應(yīng)理論模型的一個重要優(yōu)勢就是可以相對簡便地對不同年份的測試結(jié)果進(jìn)行等值化處理,即不同次的考試之間,盡管試題有所不同,成績?nèi)灾苯涌杀?。等值技術(shù)目前已在很多國外的大型標(biāo)準(zhǔn)化考試中得到運(yùn)用(如TOEFL、GRE等),這種統(tǒng)計(jì)技術(shù)對于題庫建設(shè)和構(gòu)建計(jì)算機(jī)自適應(yīng)測試都具有特別重要的意義。國際學(xué)生評估項(xiàng)目考試也運(yùn)用了等值技術(shù),多次參加測試的國家和地區(qū)可以通過直接比較測試結(jié)果,了解自身教育質(zhì)量的變化。

等值技術(shù)對我國的考試評價(jià)改革有著很重要的意義。在我國最新出臺的高考改革方案中,一年多考已成趨勢。目前已有地區(qū)將英語考試確定一年兩考。在沒有等值的情況下,兩次考試的成績不可比,使用百分位排名又會導(dǎo)致學(xué)生哪怕第一次已經(jīng)考了高分也要參加第二次,進(jìn)行“卡位”以保持相對優(yōu)勢。等值為未來完善一年多試提供了可能的技術(shù)支持。此外,等值也可以運(yùn)用到增值評價(jià)中,通過采集學(xué)生發(fā)展的縱向數(shù)據(jù),來改變原來只關(guān)注學(xué)生在某一個特定時(shí)間的狀態(tài)的做法。

除了等值外,國際學(xué)生評估項(xiàng)目還運(yùn)用項(xiàng)目反應(yīng)理論對試題性能的跨語言、跨文化可比性進(jìn)行細(xì)致的檢驗(yàn),即項(xiàng)目功能差異檢驗(yàn)。不同國家和地區(qū)要對比國際學(xué)生評估項(xiàng)目成績,必須首先保證試題對于這些國家和地區(qū)的學(xué)生是公平的,無論是哪個地區(qū)的學(xué)生,只要能力相同,得分的幾率就相同。這種統(tǒng)計(jì)檢驗(yàn)的方法也適用于驗(yàn)證我國高利害考試對不同群體的公平性。例如,近年來關(guān)于我國高考試題的取材可能對農(nóng)村學(xué)生不利的問題被廣泛關(guān)注。我們可以借鑒國際學(xué)生評估項(xiàng)目檢驗(yàn)試題的國際可比性的這種方法,分析客觀數(shù)據(jù),來證實(shí)是否存在對農(nóng)村學(xué)生不利的因素,為提高命題質(zhì)量、保障試題的公平性提供參考。

另外,在成績報(bào)告方面,國際學(xué)生評估項(xiàng)目在給出學(xué)生各科得分的同時(shí),還報(bào)告該生成績對應(yīng)的能力等級。國際學(xué)生評估項(xiàng)目的能力等級的劃分是通過測試數(shù)據(jù)分析與專家組對題目內(nèi)容的質(zhì)性分析相結(jié)合的方法設(shè)定的。每種素養(yǎng)都劃分為六個等級,五級及以上為優(yōu)秀,一級及以下為不合格。每一個能力等級都有描述性定義,說明處于該等級的學(xué)生已經(jīng)具備了哪些能力。相比于目前大多數(shù)考試僅僅為學(xué)生提供考試分?jǐn)?shù)和排名的做法,劃分能力等級并進(jìn)行細(xì)致的說明更有助于學(xué)生和學(xué)校了解自身的發(fā)展?fàn)顩r,同時(shí)也有助于改變過去“分分計(jì)較”的考分反思方式。

我國考試招生制度改革的深入推進(jìn),對于考試評價(jià)技術(shù)的要求空前提高,教育測評領(lǐng)域急需理念和技術(shù)的快速提升。我國目前的大部分考試主要以課程標(biāo)準(zhǔn)為基礎(chǔ),以學(xué)科知識為中心,圍繞考試大綱進(jìn)行命題,考試結(jié)果僅報(bào)告原始得分,與強(qiáng)調(diào)核心素養(yǎng)考查、考試選擇性、評價(jià)對教學(xué)反饋等趨勢和要求差距仍然較大。國際學(xué)生評估項(xiàng)目考試對我們的意義,遠(yuǎn)不止于與其他國家比試高低。它為我們嘗試構(gòu)建應(yīng)用能力導(dǎo)向的測試,提高命題組卷的系統(tǒng)性和科學(xué)性,通過等值建立橫向或縱向可比的測評體系等,提供了重要思路和參照。

本文轉(zhuǎn)載自微信公眾號“中國教育財(cái)政”,作者黃曉婷。

1、本文是 芥末堆網(wǎng)轉(zhuǎn)載文章,原文:中國教育財(cái)政;
2、芥末堆不接受通過公關(guān)費(fèi)、車馬費(fèi)等任何形式發(fā)布失實(shí)文章,只呈現(xiàn)有價(jià)值的內(nèi)容給讀者;
3、如果你也從事教育,并希望被芥末堆報(bào)道,請您 填寫信息告訴我們。
來源:中國教育財(cái)政
芥末堆商務(wù)合作:王老師 18710003484
  • PISA 怎樣評價(jià)學(xué)生的“素養(yǎng)”分享二維碼