芥末堆芥末堆

不是身高也不是體重,美國學(xué)?!俺砷L測量”的7種主要方法

作者:中國考試 發(fā)布時(shí)間:

不是身高也不是體重,美國學(xué)?!俺砷L測量”的7種主要方法

作者:中國考試 發(fā)布時(shí)間:

摘要:從“達(dá)標(biāo)”到“達(dá)標(biāo)+成長”

charles-deluvio-695754-unsplash.jpg

圖片來源:Unsplash

作者介紹:

王曉平,博士,美國衣阿華州教育部,教育研究與評(píng)估高級(jí)顧問;

齊森,博士,華盛頓蓋勞德特大學(xué),研究員;

謝小慶,北京語言大學(xué)教育測量研究所原所長,中國教育學(xué)會(huì)統(tǒng)計(jì)測量分會(huì)副理事長,研究

員,博士生導(dǎo)師。

*原文刊載于《中國考試》2018年第6期第21—27頁。

摘要:“成長”和“增值”是美國教育領(lǐng)域的熱門話題。根據(jù)2015年通過的《每一個(gè)學(xué)生都成功法案》,美國各州在問責(zé)中加大了評(píng)價(jià)學(xué)生成長進(jìn)步的比重,目前美國大多數(shù)州都對(duì)學(xué)生進(jìn)行成長測量。常用的成長測量模型有7種,需要根據(jù)使用目的和成績解釋框架進(jìn)行選擇。本文簡要介紹7種模型的使用方法,為改進(jìn)我國基礎(chǔ)教育評(píng)估提供思路。

關(guān)鍵詞:成長模型;增值評(píng)估;基礎(chǔ)教育評(píng)估;教育改革

2015年,經(jīng)過美國參眾兩院討論,最終通過了新的教育改革法案——《每一個(gè)學(xué)生都成功法案》(Every Student Succeeds Act,ESSA),12月10日,奧巴馬總統(tǒng)正式簽署該法案。這意味著,美國的教育改革進(jìn)入一個(gè)新的階段。《每一個(gè)學(xué)生都成功法案》于2018年正式實(shí)行,各州在貫徹執(zhí)行過程中,通過對(duì)學(xué)生成績進(jìn)步進(jìn)行評(píng)估,對(duì)教師、學(xué)校和學(xué)區(qū)進(jìn)行評(píng)價(jià)和問責(zé)。

1  背景:從“達(dá)標(biāo)”到“達(dá)標(biāo)+成長”

教育問題是美國歷屆總統(tǒng)關(guān)心的話題之一。2001年1月23日,小布什總統(tǒng)在宣誓就職后3天就推出了被稱為“一個(gè)都不能少”(No Child Left Behind,NCLB)的教育改革方案,并于2002年1月8日正式簽署該法案。其后,美國展開了一場轟轟烈烈的教育改革運(yùn)動(dòng),“一個(gè)都不能少”的口號(hào)家喻戶曉,“一個(gè)都不能少”的教育改革在法律的保護(hù)下穩(wěn)步推進(jìn)。

NCLB教育改革最核心的理念是“達(dá)標(biāo)”(proficient)和“問責(zé)”(accountability)。達(dá)標(biāo),就是要求所有學(xué)生都要完成規(guī)定的學(xué)習(xí)任務(wù),達(dá)到規(guī)定的知識(shí)掌握水平和能力要求,具體的措施是要求各州從2003年開始在3~8年級(jí)的各年級(jí)、9~12年級(jí)中的一個(gè)年級(jí)(一般是10年級(jí)或11年級(jí))進(jìn)行州統(tǒng)考,到2014年各學(xué)區(qū)和學(xué)校要使其學(xué)生100%達(dá)標(biāo)。如果有學(xué)生不能達(dá)到最低要求,出現(xiàn)“掉隊(duì)”,就要對(duì)學(xué)校和教師進(jìn)行問責(zé)。在實(shí)際推進(jìn)過程中發(fā)現(xiàn),這一目標(biāo)根本無法實(shí)現(xiàn)。盡管考試難度不斷降低,仍然會(huì)有一些學(xué)生無法達(dá)標(biāo),一些學(xué)生甚至距離標(biāo)準(zhǔn)差距很大。

NCLB在解決學(xué)生“掉隊(duì)”方面取得了一定成效,但是卻帶來新的問題。比如,教師和學(xué)生的壓力增加,考試成為學(xué)校日常工作的指揮棒;在問責(zé)的壓力下,許多中小學(xué)都不同程度地采取了應(yīng)試措施;州統(tǒng)考科目在時(shí)間、資源、教師等方面得到加強(qiáng),其他非統(tǒng)考科目(包括美術(shù)、音樂、體育等)則被削弱;為了達(dá)標(biāo),不少中小學(xué)延長學(xué)校上課時(shí)間,放學(xué)后補(bǔ)課,縮減了學(xué)生的休息時(shí)間;等等。NCLB導(dǎo)致的“應(yīng)試教育”束縛了教師的創(chuàng)造力,“應(yīng)試教育”造成的競爭性教育環(huán)境使學(xué)生的好奇心受到挫傷,其弊端日益顯現(xiàn)。因此,小布什的教育改革遭到一些教育專家的批評(píng),尤其是遭到來自基層教師的抵制。NCLB的改革初衷本在扭轉(zhuǎn)大批學(xué)生“掉隊(duì)”問題,但是改革帶來的“應(yīng)試教育”卻傷害到學(xué)生的個(gè)性發(fā)展,束縛了教師的個(gè)性化創(chuàng)造。如何在“救濟(jì)后進(jìn)”和“保護(hù)優(yōu)秀”之間找到一個(gè)平衡點(diǎn),或者說如何在二者之間找到一個(gè)適度的妥協(xié)點(diǎn),是奧巴馬就任總統(tǒng)后一直關(guān)注的問題,ESSA就是在這樣的背景下產(chǎn)生的。

與強(qiáng)調(diào)“一個(gè)都不能少”的NCLB相比,強(qiáng)調(diào)“人人成功”的ESSA的突出特點(diǎn)是以“達(dá)標(biāo)+成長”的概念取代了原來的“達(dá)標(biāo)”概念。實(shí)際上,由于許多學(xué)生不能達(dá)到最低知識(shí)和能力要求,早在2005年,小布什政府的教育部長、NCLB的主要推手瑪格麗特·斯派林斯(Margaret Spellings)就提出不僅要評(píng)估掌握程度,而且要考慮考試成績的改善和學(xué)生所取得的進(jìn)步,要對(duì)“成長”(growth)進(jìn)行評(píng)估。成長模型最初只用在差生群體,從2008年起,美國各州的問責(zé)中逐步添加了對(duì)所有學(xué)生成績進(jìn)步的評(píng)估,即“成長評(píng)估”。到2011年,美國至少有包括阿拉巴馬、亞利桑那、阿肯色、佛羅里達(dá)等在內(nèi)的16個(gè)州在教育問責(zé)中采用了成長測量。

根據(jù)ESSA,美國各州對(duì)學(xué)校的問責(zé)有了更多的自主權(quán),與此同時(shí),各州也在問責(zé)中加大了評(píng)價(jià)學(xué)生成長進(jìn)步的比重。目前美國大多數(shù)州都對(duì)學(xué)生進(jìn)行成長測量。

2  什么是“成長”?

“成長”和“增值”是美國教育領(lǐng)域中的熱門話題。人們認(rèn)識(shí)到,由于學(xué)生的原有基礎(chǔ)不同,僅僅根據(jù)一個(gè)學(xué)習(xí)階段的結(jié)業(yè)水平對(duì)學(xué)生、教師和學(xué)校進(jìn)行評(píng)價(jià)是不合理的。相對(duì)于一個(gè)學(xué)習(xí)階段結(jié)束時(shí)的終結(jié)性達(dá)標(biāo)評(píng)價(jià),“成長”評(píng)價(jià)更重要。在學(xué)習(xí)中,需要更多地關(guān)注學(xué)生經(jīng)過學(xué)習(xí)以后獲得了多大程度的成長,需要關(guān)注教師和學(xué)校在幫助學(xué)生獲得成長方面所發(fā)揮的實(shí)際作用。

“成長”評(píng)價(jià)不僅是一種教育評(píng)價(jià)技術(shù),更是一種學(xué)習(xí)理念。如果以學(xué)習(xí)的“成長”理念來審視學(xué)校教育,可以發(fā)現(xiàn),一個(gè)學(xué)期的課堂學(xué)習(xí),對(duì)于學(xué)生的成長效應(yīng)是很有限的,即使在一些辦學(xué)條件很好的學(xué)校。學(xué)校不應(yīng)僅僅關(guān)注每個(gè)學(xué)生是否掌握了教學(xué)大綱中所規(guī)定的知識(shí)內(nèi)容,更需要關(guān)注每個(gè)學(xué)生是否獲得了成長的機(jī)會(huì),是否通過學(xué)習(xí)達(dá)到了成長的效果。

成長模型(growth model)的評(píng)估對(duì)象是在校學(xué)生,評(píng)估的內(nèi)容是學(xué)習(xí)成果,既評(píng)估學(xué)生學(xué)習(xí)成果隨時(shí)間的變化,也評(píng)估學(xué)生在特定群體(全班、全校、全學(xué)區(qū)、全州、全國)中相對(duì)位置的變化。在成長模型中,至少要包含間隔一定時(shí)間的2次評(píng)估,有條件時(shí),最好是多次評(píng)估。成長評(píng)估的主要目的是向家長、教師、學(xué)校提供更多關(guān)于學(xué)生學(xué)習(xí)情況的信息,以便改進(jìn)學(xué)習(xí)和教學(xué),并便于對(duì)教師、學(xué)校進(jìn)行問責(zé)。

實(shí)現(xiàn)成長評(píng)估的一個(gè)重要條件是美國從20世紀(jì)初就發(fā)展起來的學(xué)生數(shù)據(jù)庫。雖然各州開發(fā)學(xué)生數(shù)據(jù)庫的進(jìn)度快慢不等,但基本都已有5~20年的歷史。學(xué)生數(shù)據(jù)庫的一個(gè)重要指標(biāo)是學(xué)號(hào)(student identifier number),與每個(gè)學(xué)生一一對(duì)應(yīng),在一個(gè)州或多個(gè)州都是獨(dú)一無二的。根據(jù)學(xué)號(hào)可以從兒童兩三歲跟蹤到高中畢業(yè),直到進(jìn)入大學(xué)和就業(yè)。

3  7種主要的成長測量模型

常用的成長測量模型有7種,可以分為基于縱向量表的模型、預(yù)測模型和增值模型3類。美國各州根據(jù)使用目的和成績解釋框架,選用不同的成長測量模型。

3.1 基于縱向量表的模型

基于縱向量表的成長模型是根據(jù)跨年級(jí)的縱向量表來測量學(xué)生學(xué)習(xí)成績的絕對(duì)提高,是將學(xué)生的當(dāng)前成績與其過去成績進(jìn)行比較,看其取得了怎樣的進(jìn)步成長,包括增分、漸進(jìn)達(dá)標(biāo)和分類3種。

1)增分(gain score)模型。這種模型是計(jì)算2次測試的差異,用后一次測試的分?jǐn)?shù)減去前一次測試的分?jǐn)?shù),二者之差就是成長指標(biāo)。由于這種方法簡便、直觀、容易理解,因此使用非常廣泛,常常會(huì)伴隨其他方法同時(shí)使用,是“漸進(jìn)達(dá)標(biāo)模型”的基礎(chǔ)。

2)漸進(jìn)達(dá)標(biāo)(trajectory)模型。這種模型根據(jù)最初2年的增分幅度,確定今后每年的進(jìn)步值,最終達(dá)到預(yù)期的成長目標(biāo)。采用此模型的主要有阿拉斯加州、亞利桑那州、阿肯色州、北卡羅來納州、佛羅里達(dá)州、康涅狄格州、緬因州、明尼蘇達(dá)州等。

3)分類(categorical)模型。主要看跨年級(jí)成績等級(jí)的變化,比如美國全國教育進(jìn)步評(píng)估項(xiàng)目(National Assessment of Educational Progress,NAEP)的測試結(jié)果劃分為低于基本要求(below basic)、達(dá)到基本要求(basic)、達(dá)標(biāo)(proficient)和優(yōu)秀(advanced)4個(gè)等級(jí)。如果一個(gè)學(xué)生從“達(dá)到基本要求”上升到“達(dá)標(biāo)”,就有進(jìn)步。分類模型對(duì)等級(jí)劃分有很高的要求,等級(jí)標(biāo)準(zhǔn)的制定也是一個(gè)很復(fù)雜、很嚴(yán)密的過程。采用這種模型的主要有德里瓦爾州、衣阿華州等。

上述3種模型都需要直接看學(xué)生本人在前后2次考試中分?jǐn)?shù)或等級(jí)的絕對(duì)變化,據(jù)此回答學(xué)生究竟取得了怎樣的進(jìn)步。這3種模式都不僅需要有跨年級(jí)的縱向量表,而且需要制定一些表現(xiàn)為及格線或切分點(diǎn)(cut score)的進(jìn)步標(biāo)準(zhǔn)。在達(dá)標(biāo)標(biāo)準(zhǔn)的制定過程中,既要考慮各個(gè)年級(jí)的學(xué)生需要達(dá)到的知識(shí)和能力水平,也要考慮本校、本學(xué)區(qū)、本州同年級(jí)學(xué)生的實(shí)際水平,是一個(gè)兼顧標(biāo)準(zhǔn)參照(criterion reference)和常模參照(norm reference)的過程,同時(shí)還要考慮達(dá)到最終目標(biāo)所需年限。

美國有近20個(gè)州使用由智者平衡評(píng)估聯(lián)盟(The Smarter Balanced Assessment Consortium,SBAC)開發(fā)的測試系統(tǒng)進(jìn)行教育評(píng)估和問責(zé)。SBAC系統(tǒng)是一個(gè)有效、公平、可靠的學(xué)生評(píng)估工具,是一個(gè)跨年級(jí)的縱向?qū)W習(xí)評(píng)估量表,可以為學(xué)生、家長、教師、教育管理人員提供作為行動(dòng)依據(jù)的評(píng)估信息,提供關(guān)于學(xué)生學(xué)習(xí)情況的反饋信息,幫助學(xué)生改進(jìn)學(xué)習(xí),幫助教師和教育機(jī)構(gòu)改進(jìn)教學(xué)。《共同核心國家標(biāo)準(zhǔn)》(Common Core State Standards,CCSS)是美國從學(xué)前班到高中教育的國家標(biāo)準(zhǔn),SBAC對(duì)學(xué)生進(jìn)行評(píng)估的依據(jù)是CCSS。SBAC旨在幫助學(xué)生為未來的大學(xué)學(xué)習(xí)或就業(yè)做好必要的知識(shí)和能力準(zhǔn)備,由3個(gè)模塊組成:一是形成性評(píng)價(jià)過程和數(shù)字資料庫(The Formative Assessment Process and the Digital Library),在數(shù)字資料庫中,包含大量教學(xué)參考資料和用于形成性評(píng)估的題目,供使用者參考;二是中期評(píng)價(jià),即選擇性階段性測試(Interim Assessment: The Optional Periodic Test);三是總結(jié)性評(píng)估,即年終測試(Summative Assessment: The End-of-Year Test)。

美國還有10個(gè)州使用《大學(xué)學(xué)習(xí)和就業(yè)準(zhǔn)備聯(lián)合測試》(Partnership for the Assessment of Readiness for College and Career,PARCC)。PARCC由多個(gè)州聯(lián)合開發(fā),用于測試基礎(chǔ)教育各個(gè)年級(jí)的學(xué)業(yè)水平,主要考查順利完成大學(xué)學(xué)習(xí)和勝任職業(yè)所需要的知識(shí)和能力,考查范圍包括學(xué)術(shù)知識(shí)、審辯式思維(critical thinking)、運(yùn)用知識(shí)解決問題的能力、在收集信息的基礎(chǔ)上形成個(gè)人看法的能力、論證并能夠與他人溝通個(gè)人想法的能力,等等。與SBAC一樣,PARCC也是以CCSS為依據(jù)對(duì)學(xué)生進(jìn)行評(píng)估。

以美國康涅狄格州為例說明漸進(jìn)達(dá)標(biāo)模型的測量方法,測試工具采用的是SBAC。表1是康涅狄格州SBAC測試分?jǐn)?shù)的匯總表,表中包含康涅狄格州3~8年級(jí)的SBAC測試結(jié)果。SBAC量表的分?jǐn)?shù)范圍為2100~2800。康涅狄格州根據(jù)學(xué)生實(shí)際得分和知識(shí)掌握情況為每個(gè)年級(jí)分別規(guī)定了“達(dá)標(biāo)”和“成長”標(biāo)準(zhǔn)。從表1的左上角到右下角,顯示了一個(gè)3年級(jí)學(xué)生經(jīng)過5年學(xué)習(xí)升入8年級(jí)的漸進(jìn)成長方向和成長過程,顯示了不同水平的學(xué)生從SBAC測試的2100分成長到2800分的漸進(jìn)過程。比如,4年級(jí)學(xué)生瑪麗在2017年3年級(jí)時(shí)SBAC測試的成績是2450分,這個(gè)分?jǐn)?shù)在2432~2460分之間,屬于3年級(jí)低水平的達(dá)標(biāo)范圍;2018年瑪麗的測試成績達(dá)到2518分,處于2503~2532分之間,屬于4年級(jí)高水平的達(dá)標(biāo)范圍。從瑪麗2017年和2018年的測試分?jǐn)?shù)中,我們不僅可以看到瑪麗的“達(dá)標(biāo)”水平,還可以看到瑪麗的“成長”,與2017年相比,她的成績不僅獲得了68分的增長,而且獲得了從低水平達(dá)標(biāo)變?yōu)楦咚竭_(dá)標(biāo)的“增級(jí)”。

640.jpg

3.2 預(yù)測模型

預(yù)測模型包括殘差、學(xué)生成長百分等級(jí)和投射3種。與前述基于縱向量表的3種模型相同,這類成長模型也需要至少2次測試結(jié)果。但是,這類模型并不基于跨年級(jí)縱向量表之上,2次或多次測試并不要求采用縱向量表,而是采用線性和非線性的統(tǒng)計(jì)模型,主要是回歸模型,或者以學(xué)生的同年級(jí)常模群體作為參照系,或者以大量積累的歷史數(shù)據(jù)和追蹤數(shù)據(jù)作為參照系,刻畫學(xué)生所獲得的成長。

1)殘差(the residual gain)模型。這是一種最容易理解的回歸方法,只能應(yīng)用于連續(xù)數(shù)據(jù),不適用于及格/不及格的二分計(jì)分方法,也不適用于A、B、C、D的等級(jí)計(jì)分方法。殘差模型的基本計(jì)算方法是:在2年的年級(jí)成績之間建立線性回歸方程,根據(jù)回歸方程和某學(xué)生上一年的成績,計(jì)算出該學(xué)生今年的預(yù)期成績,然后計(jì)算該學(xué)生預(yù)期成績與實(shí)際成績之間的“殘差”。如果實(shí)際成績高于預(yù)期成績,該學(xué)生就取得了比較滿意的“成長”;相反,則“成長”的情況不理想。在實(shí)際的操作中,通常會(huì)將殘差進(jìn)行標(biāo)準(zhǔn)化處理,處理的方法是進(jìn)行殘差百分等級(jí)排列(percentile rank of residual,PRR)。

2)學(xué)生成長百分等級(jí)(student growth percentile,SGP)模型。2009 年,達(dá)米安·比特本納(Damien Betebeener)開發(fā)了基于R語言的SGP數(shù)據(jù)處理軟件——Quantile。借助 Quantile軟件,學(xué)生當(dāng)年的成績與在前一年測試中獲得相同成績的群體進(jìn)行比較,計(jì)算出其在這一與自己相近水平群體中的百分等級(jí),即在1~99百分等級(jí)序列中所處位置。如果百分等級(jí)高于50,就顯示這個(gè)學(xué)生一年來有所“成長”;如果百分等級(jí)低于50,就顯示這個(gè)學(xué)生的“成長”效果不理想。SGP模型也被稱為正態(tài)模型(normative model),因?yàn)檫@個(gè)模型假設(shè)與考生第一年分?jǐn)?shù)相同的群體在第二年所得分?jǐn)?shù)呈正態(tài)分布。這一模型最初被應(yīng)用于科羅拉多州。目前,美國國家教育評(píng)估改進(jìn)中心(National Center for the Improvement of Educational Assessment,NCIEA)向采用SGP模型的美國各州提供便于根據(jù)自身需要進(jìn)行完善的開源(open-source)SGP軟件包,已有20多個(gè)州(包括華盛頓特區(qū)、馬里蘭州、科羅拉多州、馬塞諸塞州、俄勒崗州、華盛頓州等)采用此模型,占所有使用成長模型的州的50%以上,在美國是使用最廣泛的一種成長模型。

3)投射(projection)模型,也稱為預(yù)測(prediction)模型和回歸(regression)模型。在投射模型回歸方程的建立中,采用盡可能多的歷史數(shù)據(jù)和追蹤數(shù)據(jù)來建立盡可能可靠、有效的回歸方程,通常不僅僅采用2年的數(shù)據(jù),而是采用多年的追蹤數(shù)據(jù),通過盡可能多的預(yù)測源和預(yù)測變量來建立回歸方程。例如,如果有證據(jù)表明數(shù)學(xué)成績可以增加對(duì)物理成績的預(yù)測準(zhǔn)確性,就可以將數(shù)學(xué)成績作為一種預(yù)測源包含進(jìn)回歸方程。

與漸進(jìn)達(dá)標(biāo)模型和殘差模型一樣,投射模型也需要建立回歸方程,但是與二者有一定的區(qū)別。與漸進(jìn)達(dá)標(biāo)模型的區(qū)別在于,漸進(jìn)達(dá)標(biāo)模型是建立在跨年級(jí)縱向量表的基礎(chǔ)之上,是一種“量表驅(qū)動(dòng)”(scale driven)的回歸方法;投射模型則不依賴于縱向量表,而是通過大量的歷史數(shù)據(jù)建立起預(yù)測學(xué)生成長趨勢的回歸方程,是一種“數(shù)據(jù)驅(qū)動(dòng)”(data driven)的回歸方法。與殘差模型的區(qū)別在于,投射模型不是根據(jù)考生所在年級(jí)學(xué)生2次測試成績來建立回歸方程,而是根據(jù)大量的不同年級(jí)的歷史數(shù)據(jù)和追蹤數(shù)據(jù)來建立回歸方程,并根據(jù)回歸方程作出預(yù)測。在漸進(jìn)達(dá)標(biāo)模型中,量表相同,但參照?qǐng)F(tuán)體不同;在殘差模型中,參照?qǐng)F(tuán)體相同,但量表不同;在投射模型中,量表不同,參照?qǐng)F(tuán)體也可能不同。

如果說,借助相同量表或相同參照群體,漸進(jìn)達(dá)標(biāo)模型和殘差模型可以對(duì)考生的期望成績進(jìn)行“預(yù)測”,可以對(duì)學(xué)生的成長情況進(jìn)行描述,那么,既無相同量表也非相同參照群體的投射模型只能進(jìn)行“投射”,只能對(duì)關(guān)于學(xué)生成長的解釋作出有限的支持。俄亥俄州、田納西州等曾經(jīng)采用此模型。

3.3 增值模型

增值(value added)模型單獨(dú)構(gòu)成一類成長模型。增值模型,又稱為多變量(multivariate)模型、教育增值評(píng)估系統(tǒng)(Education Value-Added Assessment System,EVAAS)、田納西增值評(píng)估系統(tǒng)(Tennessee Value-Added Assessment System,TVAAS)、變量保持(Variable Persistence)模型,等等。在增值模型中,不僅包含測試分?jǐn)?shù),而且包含多種變量。增值模型不僅描述學(xué)生的成長狀況,而且分析影響學(xué)生成長的原因。在一些州,增值模型不僅用于學(xué)生評(píng)估,而且用于教師、學(xué)校和學(xué)區(qū)評(píng)估,甚至被用于決定教師的獎(jiǎng)金和聘用。最常用的增值計(jì)算工具是EVAAS軟件系統(tǒng),其次是層級(jí)線性和非線性模型(Hierarchical Linear and Nonlinear Modeling,HLM)。采用增值模型的主要有田納西州、賓夕法尼亞州、俄亥俄州等。

由于增值模型被用于對(duì)教師、校長、學(xué)校的評(píng)價(jià)以至決定獎(jiǎng)懲,近年來許多專家學(xué)者呼吁慎重使用增值評(píng)估。2015年,美國最大的教育組織——美國教育研究協(xié)會(huì)(American Educational Research Association, AERA)的理事會(huì)正式發(fā)布了一份官方文件——《AERA關(guān)于將增值模型應(yīng)用于教師和教師培訓(xùn)項(xiàng)目的說明》(AERA Statement on Use of ValueAdded Models for the Evaluation of Educators and Educator Preparation Programs)。在這份文件中,強(qiáng)調(diào)了使用增值模型的8條注意事項(xiàng):1)增值模型使用的前提是測驗(yàn)本身的效度、信度符合美國教育研究協(xié)會(huì)、美國心理學(xué)會(huì)和美國教育測量學(xué)會(huì)共同制定頒布的《教育與心理測驗(yàn)標(biāo)準(zhǔn)》(Standards for Educational and Psychological Testing);2)增值模型使用中,需要提供這種模型中所包含每個(gè)評(píng)估項(xiàng)目的效度和信度說明;3)增值模型必須基于足夠大樣本量的多年數(shù)據(jù);4)不同時(shí)間使用的不同測驗(yàn)或測驗(yàn)版本之間具有可比性;5)單獨(dú)檢驗(yàn)每個(gè)年級(jí)、每個(gè)學(xué)科的測驗(yàn)效度和信度,不能將增值評(píng)估應(yīng)用于未經(jīng)標(biāo)準(zhǔn)化質(zhì)量檢驗(yàn)的其他年級(jí)和學(xué)科;6)在教師、學(xué)校、教育項(xiàng)目評(píng)估中需要綜合考慮多方面證據(jù),不能僅僅使用增值分?jǐn)?shù)對(duì)教師、學(xué)校、教育項(xiàng)目進(jìn)行評(píng)價(jià);7)增值模型的使用過程中應(yīng)保持持續(xù)的質(zhì)量監(jiān)測,持續(xù)關(guān)注實(shí)際的使用效果;8)使用增值模型進(jìn)行評(píng)估和決策,在報(bào)告相關(guān)結(jié)果時(shí)必須同時(shí)提供統(tǒng)計(jì)誤差范圍。

AERA在這份文件的結(jié)尾處指出,這8條注意事項(xiàng)不僅適用于增值模型,也適用于其他任何一種成長評(píng)估模型。在使用各種成長評(píng)估方法對(duì)教師、學(xué)校和教育項(xiàng)目進(jìn)行評(píng)價(jià)時(shí),都應(yīng)該保持謹(jǐn)慎。

上述7種模型并無簡單的好壞優(yōu)劣之分,各有長處和不足,使用方法的簡單比較見表2。對(duì)于不同的模型,可以對(duì)評(píng)估結(jié)果作出不同的解釋。至于選擇哪種模型,要考慮分?jǐn)?shù)解釋的不同需要。

640.jpg

在上述7種成長模型之外,教育問責(zé)中還會(huì)采用一些其他的評(píng)估指標(biāo),包括:1)參加考試的學(xué)生比率;2)考試平均分或熟練掌握比率;3)學(xué)生平均出勤率;4)高中學(xué)生畢業(yè)率;5)7~12年級(jí)的輟學(xué)率;6)學(xué)生和家長對(duì)學(xué)校教師的滿意程度;7)教師流失率;等等。

2018年3月16日,教育部部長陳寶生在“兩會(huì)”教育問題專題記者招待會(huì)上回答記者的提問時(shí)說:“要改變?cè)u(píng)價(jià)方式,完善學(xué)業(yè)考試辦法,建立素質(zhì)綜合評(píng)價(jià)制度,不允許以分?jǐn)?shù)高低對(duì)學(xué)生排名”“這次高考改革之后,高中階段對(duì)學(xué)生的考核,增加了綜合素質(zhì)評(píng)價(jià)這樣一個(gè)內(nèi)容。這是非常明顯的素質(zhì)教育措施”。美國基礎(chǔ)教育評(píng)估從“達(dá)標(biāo)模型”到“達(dá)標(biāo)+成長模型”的發(fā)展變化,從幼兒園到高中教育中所采用的7種主要的成長評(píng)估模型,可以為我國改進(jìn)和完善基礎(chǔ)教育的綜合素質(zhì)評(píng)價(jià)帶來一些啟發(fā),值得我們思考和借鑒。

本文轉(zhuǎn)自微信公眾號(hào)“中國考試”。文章為作者獨(dú)立觀點(diǎn),不代表芥末堆立場。

1、本文是 芥末堆網(wǎng)轉(zhuǎn)載文章,原文:中國考試;
2、芥末堆不接受通過公關(guān)費(fèi)、車馬費(fèi)等任何形式發(fā)布失實(shí)文章,只呈現(xiàn)有價(jià)值的內(nèi)容給讀者;
3、如果你也從事教育,并希望被芥末堆報(bào)道,請(qǐng)您 填寫信息告訴我們。
來源:中國考試
芥末堆商務(wù)合作:王老師 18710003484
  • 不是身高也不是體重,美國學(xué)?!俺砷L測量”的7種主要方法分享二維碼