圖片來源:Unsplash
近期,國(guó)際學(xué)生評(píng)估項(xiàng)目(PISA,Programme for International Student Assessment)公布了 2015 年的測(cè)試結(jié)果,引起了社會(huì)各界的廣泛關(guān)注。然而,它的意義和價(jià)值遠(yuǎn)不止于一個(gè)簡(jiǎn)單的排名。國(guó)際學(xué)生評(píng)估項(xiàng)目作為目前參與最廣、最具影響力的國(guó)際大型標(biāo)準(zhǔn)化測(cè)試,其測(cè)試?yán)砟詈蜏y(cè)量技術(shù)都處于教育測(cè)評(píng)領(lǐng)域的前沿,可以為我國(guó)的考試評(píng)價(jià)改革提供借鑒。
1 以對(duì)能力和素養(yǎng)的考查為目的,并提供了整套方法
國(guó)際學(xué)生評(píng)估項(xiàng)目的考核重點(diǎn)不是學(xué)生對(duì)課程內(nèi)容的掌握程度,而是評(píng)價(jià)學(xué)生在閱讀、數(shù)學(xué)和科學(xué)三方面的“素養(yǎng)”(literacy)。由于國(guó)際學(xué)生評(píng)估項(xiàng)目的測(cè)試對(duì)象不是某一個(gè)年級(jí),而是15歲3個(gè)月到16歲2個(gè)月的學(xué)生,跨了至少兩個(gè)年級(jí),且不同國(guó)家和地區(qū)使用的教材也不同,因此考核“素養(yǎng)”是其唯一理性的選擇。這種考查目的和方式,對(duì)于解決現(xiàn)有高考和中考帶來的“死記硬背”弊端無疑是極有意義的。
國(guó)際學(xué)生評(píng)估項(xiàng)目將“素養(yǎng)”定義為學(xué)生在生活情境中應(yīng)用相關(guān)知識(shí)和技能的能力。例如,2015年重點(diǎn)考查的科學(xué)素養(yǎng)被定義為作為公民參與科技相關(guān)的事務(wù)的能力,包括解決生活中與科學(xué)技術(shù)相關(guān)的問題,并有科學(xué)探究的意識(shí),會(huì)科學(xué)反思等。與傳統(tǒng)的學(xué)科測(cè)試相比,國(guó)際學(xué)生評(píng)估項(xiàng)目強(qiáng)調(diào)學(xué)生終身學(xué)習(xí)和未來職業(yè)發(fā)展所需的應(yīng)用知識(shí)的能力和批評(píng)思維能力。我國(guó)新一輪基礎(chǔ)教育課程改革也提出了把問題解決、批判思維等能力培養(yǎng)與學(xué)科知識(shí)相結(jié)合的理念,然而目前絕大多數(shù)的標(biāo)準(zhǔn)化考試仍然拘泥于考查課本里的知識(shí)點(diǎn),與國(guó)務(wù)院考試招生制度改革方案要求的重點(diǎn)考查運(yùn)用所學(xué)知識(shí)發(fā)現(xiàn)問題和解決問題的能力還存在不小差距,而國(guó)際學(xué)生評(píng)估項(xiàng)目為我們提供了范本。
2 提供了命題組考科學(xué)化和規(guī)范化的范本
國(guó)際學(xué)生評(píng)估項(xiàng)目的測(cè)試框架由測(cè)量專業(yè)人員和多國(guó)學(xué)科專家共同制定,專家組對(duì)素養(yǎng)的各個(gè)維度進(jìn)行十分詳盡的闡述。例如,2015年重點(diǎn)考查的科學(xué)素養(yǎng),其測(cè)試框架為在社會(huì)生活背景下的科學(xué)能力、知識(shí)和態(tài)度。具體來說,社會(huì)生活背景包括個(gè)人、地區(qū)和全球三個(gè)層次;能力包括科學(xué)地解釋現(xiàn)象、設(shè)計(jì)和評(píng)估科學(xué)研究的方法、解釋數(shù)據(jù)和論據(jù)三個(gè)方面;知識(shí)包括事實(shí)性、過程性和認(rèn)知性三類;而態(tài)度則包括對(duì)科學(xué)技術(shù)、環(huán)境和科學(xué)研究的方法三方面。在這一框架下,專家組確定測(cè)試藍(lán)圖,即嚴(yán)格規(guī)定三個(gè)層次的背景下,三種能力和三類知識(shí)分別占多少比重,不同難度的試題分別占多少比重等??蚣艿募?xì)致劃分使得組卷的隨意性大幅降低,可以在很大程度上確保測(cè)試的內(nèi)容效度。此外,測(cè)試框架經(jīng)過反復(fù)的討論修改,最終確定后會(huì)在一段時(shí)間內(nèi)保持穩(wěn)定,從而使得不同年份測(cè)試內(nèi)容的可比性大大提高,為各國(guó)分析本國(guó)在一段時(shí)間內(nèi)的發(fā)展變化提供了基礎(chǔ)。
國(guó)際學(xué)生評(píng)估項(xiàng)目的命題和組卷過程也與我們較多依賴命題人員經(jīng)驗(yàn)的做法不同,它在更大程度上結(jié)合了專家意見和客觀數(shù)據(jù)。大致來說,第一輪由專業(yè)命題人員和各國(guó)學(xué)科專家提供實(shí)際測(cè)試題目4倍左右的試題,之后經(jīng)過專家組“磨題”和小規(guī)模施測(cè),選出其中在內(nèi)容和難度上更為適切的1/2左右的試題。各國(guó)進(jìn)行翻譯和本土化后,選擇1000名左右的學(xué)生參加國(guó)際學(xué)生評(píng)估項(xiàng)目在本國(guó)的試測(cè),測(cè)量專業(yè)人員對(duì)試測(cè)數(shù)據(jù)進(jìn)行細(xì)致的分析,包括題目的難度、區(qū)分度、與統(tǒng)計(jì)模型的擬合度、對(duì)不同性別和不同地區(qū)學(xué)生的公平性等。依據(jù)試測(cè)數(shù)據(jù)的分析結(jié)果,選擇內(nèi)容和難度適宜、國(guó)際可比性等各方面性能良好的題目,組成最終測(cè)試的試卷。這種做法保障了實(shí)測(cè)試題的質(zhì)量,也在很大程度上保證了測(cè)試的信度。
3 運(yùn)用最新考試評(píng)價(jià)技術(shù),科學(xué)性與公平性有機(jī)統(tǒng)一
在測(cè)試結(jié)果的計(jì)算方面,國(guó)際學(xué)生評(píng)估項(xiàng)目運(yùn)用了項(xiàng)目反應(yīng)理論模型。使用項(xiàng)目反應(yīng)理論模型的一個(gè)重要優(yōu)勢(shì)就是可以相對(duì)簡(jiǎn)便地對(duì)不同年份的測(cè)試結(jié)果進(jìn)行等值化處理,即不同次的考試之間,盡管試題有所不同,成績(jī)?nèi)灾苯涌杀?。等值技術(shù)目前已在很多國(guó)外的大型標(biāo)準(zhǔn)化考試中得到運(yùn)用(如TOEFL、GRE等),這種統(tǒng)計(jì)技術(shù)對(duì)于題庫建設(shè)和構(gòu)建計(jì)算機(jī)自適應(yīng)測(cè)試都具有特別重要的意義。國(guó)際學(xué)生評(píng)估項(xiàng)目考試也運(yùn)用了等值技術(shù),多次參加測(cè)試的國(guó)家和地區(qū)可以通過直接比較測(cè)試結(jié)果,了解自身教育質(zhì)量的變化。
等值技術(shù)對(duì)我國(guó)的考試評(píng)價(jià)改革有著很重要的意義。在我國(guó)最新出臺(tái)的高考改革方案中,一年多考已成趨勢(shì)。目前已有地區(qū)將英語考試確定一年兩考。在沒有等值的情況下,兩次考試的成績(jī)不可比,使用百分位排名又會(huì)導(dǎo)致學(xué)生哪怕第一次已經(jīng)考了高分也要參加第二次,進(jìn)行“卡位”以保持相對(duì)優(yōu)勢(shì)。等值為未來完善一年多試提供了可能的技術(shù)支持。此外,等值也可以運(yùn)用到增值評(píng)價(jià)中,通過采集學(xué)生發(fā)展的縱向數(shù)據(jù),來改變?cè)瓉碇魂P(guān)注學(xué)生在某一個(gè)特定時(shí)間的狀態(tài)的做法。
除了等值外,國(guó)際學(xué)生評(píng)估項(xiàng)目還運(yùn)用項(xiàng)目反應(yīng)理論對(duì)試題性能的跨語言、跨文化可比性進(jìn)行細(xì)致的檢驗(yàn),即項(xiàng)目功能差異檢驗(yàn)。不同國(guó)家和地區(qū)要對(duì)比國(guó)際學(xué)生評(píng)估項(xiàng)目成績(jī),必須首先保證試題對(duì)于這些國(guó)家和地區(qū)的學(xué)生是公平的,無論是哪個(gè)地區(qū)的學(xué)生,只要能力相同,得分的幾率就相同。這種統(tǒng)計(jì)檢驗(yàn)的方法也適用于驗(yàn)證我國(guó)高利害考試對(duì)不同群體的公平性。例如,近年來關(guān)于我國(guó)高考試題的取材可能對(duì)農(nóng)村學(xué)生不利的問題被廣泛關(guān)注。我們可以借鑒國(guó)際學(xué)生評(píng)估項(xiàng)目檢驗(yàn)試題的國(guó)際可比性的這種方法,分析客觀數(shù)據(jù),來證實(shí)是否存在對(duì)農(nóng)村學(xué)生不利的因素,為提高命題質(zhì)量、保障試題的公平性提供參考。
另外,在成績(jī)報(bào)告方面,國(guó)際學(xué)生評(píng)估項(xiàng)目在給出學(xué)生各科得分的同時(shí),還報(bào)告該生成績(jī)對(duì)應(yīng)的能力等級(jí)。國(guó)際學(xué)生評(píng)估項(xiàng)目的能力等級(jí)的劃分是通過測(cè)試數(shù)據(jù)分析與專家組對(duì)題目?jī)?nèi)容的質(zhì)性分析相結(jié)合的方法設(shè)定的。每種素養(yǎng)都劃分為六個(gè)等級(jí),五級(jí)及以上為優(yōu)秀,一級(jí)及以下為不合格。每一個(gè)能力等級(jí)都有描述性定義,說明處于該等級(jí)的學(xué)生已經(jīng)具備了哪些能力。相比于目前大多數(shù)考試僅僅為學(xué)生提供考試分?jǐn)?shù)和排名的做法,劃分能力等級(jí)并進(jìn)行細(xì)致的說明更有助于學(xué)生和學(xué)校了解自身的發(fā)展?fàn)顩r,同時(shí)也有助于改變過去“分分計(jì)較”的考分反思方式。
我國(guó)考試招生制度改革的深入推進(jìn),對(duì)于考試評(píng)價(jià)技術(shù)的要求空前提高,教育測(cè)評(píng)領(lǐng)域急需理念和技術(shù)的快速提升。我國(guó)目前的大部分考試主要以課程標(biāo)準(zhǔn)為基礎(chǔ),以學(xué)科知識(shí)為中心,圍繞考試大綱進(jìn)行命題,考試結(jié)果僅報(bào)告原始得分,與強(qiáng)調(diào)核心素養(yǎng)考查、考試選擇性、評(píng)價(jià)對(duì)教學(xué)反饋等趨勢(shì)和要求差距仍然較大。國(guó)際學(xué)生評(píng)估項(xiàng)目考試對(duì)我們的意義,遠(yuǎn)不止于與其他國(guó)家比試高低。它為我們嘗試構(gòu)建應(yīng)用能力導(dǎo)向的測(cè)試,提高命題組卷的系統(tǒng)性和科學(xué)性,通過等值建立橫向或縱向可比的測(cè)評(píng)體系等,提供了重要思路和參照。
本文轉(zhuǎn)載自微信公眾號(hào)“中國(guó)教育財(cái)政”,作者黃曉婷。
2、芥末堆不接受通過公關(guān)費(fèi)、車馬費(fèi)等任何形式發(fā)布失實(shí)文章,只呈現(xiàn)有價(jià)值的內(nèi)容給讀者;
3、如果你也從事教育,并希望被芥末堆報(bào)道,請(qǐng)您 填寫信息告訴我們。