芥末堆芥末堆

不是身高也不是體重,美國學(xué)?!俺砷L測量”的7種主要方法

作者:中國考試 發(fā)布時間:

不是身高也不是體重,美國學(xué)?!俺砷L測量”的7種主要方法

作者:中國考試 發(fā)布時間:

摘要:從“達標”到“達標+成長”

charles-deluvio-695754-unsplash.jpg

圖片來源:Unsplash

作者介紹:

王曉平,博士,美國衣阿華州教育部,教育研究與評估高級顧問;

齊森,博士,華盛頓蓋勞德特大學(xué),研究員;

謝小慶,北京語言大學(xué)教育測量研究所原所長,中國教育學(xué)會統(tǒng)計測量分會副理事長,研究

員,博士生導(dǎo)師。

*原文刊載于《中國考試》2018年第6期第21—27頁。

摘要:“成長”和“增值”是美國教育領(lǐng)域的熱門話題。根據(jù)2015年通過的《每一個學(xué)生都成功法案》,美國各州在問責中加大了評價學(xué)生成長進步的比重,目前美國大多數(shù)州都對學(xué)生進行成長測量。常用的成長測量模型有7種,需要根據(jù)使用目的和成績解釋框架進行選擇。本文簡要介紹7種模型的使用方法,為改進我國基礎(chǔ)教育評估提供思路。

關(guān)鍵詞:成長模型;增值評估;基礎(chǔ)教育評估;教育改革

2015年,經(jīng)過美國參眾兩院討論,最終通過了新的教育改革法案——《每一個學(xué)生都成功法案》(Every Student Succeeds Act,ESSA),12月10日,奧巴馬總統(tǒng)正式簽署該法案。這意味著,美國的教育改革進入一個新的階段。《每一個學(xué)生都成功法案》于2018年正式實行,各州在貫徹執(zhí)行過程中,通過對學(xué)生成績進步進行評估,對教師、學(xué)校和學(xué)區(qū)進行評價和問責。

1  背景:從“達標”到“達標+成長”

教育問題是美國歷屆總統(tǒng)關(guān)心的話題之一。2001年1月23日,小布什總統(tǒng)在宣誓就職后3天就推出了被稱為“一個都不能少”(No Child Left Behind,NCLB)的教育改革方案,并于2002年1月8日正式簽署該法案。其后,美國展開了一場轟轟烈烈的教育改革運動,“一個都不能少”的口號家喻戶曉,“一個都不能少”的教育改革在法律的保護下穩(wěn)步推進。

NCLB教育改革最核心的理念是“達標”(proficient)和“問責”(accountability)。達標,就是要求所有學(xué)生都要完成規(guī)定的學(xué)習(xí)任務(wù),達到規(guī)定的知識掌握水平和能力要求,具體的措施是要求各州從2003年開始在3~8年級的各年級、9~12年級中的一個年級(一般是10年級或11年級)進行州統(tǒng)考,到2014年各學(xué)區(qū)和學(xué)校要使其學(xué)生100%達標。如果有學(xué)生不能達到最低要求,出現(xiàn)“掉隊”,就要對學(xué)校和教師進行問責。在實際推進過程中發(fā)現(xiàn),這一目標根本無法實現(xiàn)。盡管考試難度不斷降低,仍然會有一些學(xué)生無法達標,一些學(xué)生甚至距離標準差距很大。

NCLB在解決學(xué)生“掉隊”方面取得了一定成效,但是卻帶來新的問題。比如,教師和學(xué)生的壓力增加,考試成為學(xué)校日常工作的指揮棒;在問責的壓力下,許多中小學(xué)都不同程度地采取了應(yīng)試措施;州統(tǒng)考科目在時間、資源、教師等方面得到加強,其他非統(tǒng)考科目(包括美術(shù)、音樂、體育等)則被削弱;為了達標,不少中小學(xué)延長學(xué)校上課時間,放學(xué)后補課,縮減了學(xué)生的休息時間;等等。NCLB導(dǎo)致的“應(yīng)試教育”束縛了教師的創(chuàng)造力,“應(yīng)試教育”造成的競爭性教育環(huán)境使學(xué)生的好奇心受到挫傷,其弊端日益顯現(xiàn)。因此,小布什的教育改革遭到一些教育專家的批評,尤其是遭到來自基層教師的抵制。NCLB的改革初衷本在扭轉(zhuǎn)大批學(xué)生“掉隊”問題,但是改革帶來的“應(yīng)試教育”卻傷害到學(xué)生的個性發(fā)展,束縛了教師的個性化創(chuàng)造。如何在“救濟后進”和“保護優(yōu)秀”之間找到一個平衡點,或者說如何在二者之間找到一個適度的妥協(xié)點,是奧巴馬就任總統(tǒng)后一直關(guān)注的問題,ESSA就是在這樣的背景下產(chǎn)生的。

與強調(diào)“一個都不能少”的NCLB相比,強調(diào)“人人成功”的ESSA的突出特點是以“達標+成長”的概念取代了原來的“達標”概念。實際上,由于許多學(xué)生不能達到最低知識和能力要求,早在2005年,小布什政府的教育部長、NCLB的主要推手瑪格麗特·斯派林斯(Margaret Spellings)就提出不僅要評估掌握程度,而且要考慮考試成績的改善和學(xué)生所取得的進步,要對“成長”(growth)進行評估。成長模型最初只用在差生群體,從2008年起,美國各州的問責中逐步添加了對所有學(xué)生成績進步的評估,即“成長評估”。到2011年,美國至少有包括阿拉巴馬、亞利桑那、阿肯色、佛羅里達等在內(nèi)的16個州在教育問責中采用了成長測量。

根據(jù)ESSA,美國各州對學(xué)校的問責有了更多的自主權(quán),與此同時,各州也在問責中加大了評價學(xué)生成長進步的比重。目前美國大多數(shù)州都對學(xué)生進行成長測量。

2  什么是“成長”?

“成長”和“增值”是美國教育領(lǐng)域中的熱門話題。人們認識到,由于學(xué)生的原有基礎(chǔ)不同,僅僅根據(jù)一個學(xué)習(xí)階段的結(jié)業(yè)水平對學(xué)生、教師和學(xué)校進行評價是不合理的。相對于一個學(xué)習(xí)階段結(jié)束時的終結(jié)性達標評價,“成長”評價更重要。在學(xué)習(xí)中,需要更多地關(guān)注學(xué)生經(jīng)過學(xué)習(xí)以后獲得了多大程度的成長,需要關(guān)注教師和學(xué)校在幫助學(xué)生獲得成長方面所發(fā)揮的實際作用。

“成長”評價不僅是一種教育評價技術(shù),更是一種學(xué)習(xí)理念。如果以學(xué)習(xí)的“成長”理念來審視學(xué)校教育,可以發(fā)現(xiàn),一個學(xué)期的課堂學(xué)習(xí),對于學(xué)生的成長效應(yīng)是很有限的,即使在一些辦學(xué)條件很好的學(xué)校。學(xué)校不應(yīng)僅僅關(guān)注每個學(xué)生是否掌握了教學(xué)大綱中所規(guī)定的知識內(nèi)容,更需要關(guān)注每個學(xué)生是否獲得了成長的機會,是否通過學(xué)習(xí)達到了成長的效果。

成長模型(growth model)的評估對象是在校學(xué)生,評估的內(nèi)容是學(xué)習(xí)成果,既評估學(xué)生學(xué)習(xí)成果隨時間的變化,也評估學(xué)生在特定群體(全班、全校、全學(xué)區(qū)、全州、全國)中相對位置的變化。在成長模型中,至少要包含間隔一定時間的2次評估,有條件時,最好是多次評估。成長評估的主要目的是向家長、教師、學(xué)校提供更多關(guān)于學(xué)生學(xué)習(xí)情況的信息,以便改進學(xué)習(xí)和教學(xué),并便于對教師、學(xué)校進行問責。

實現(xiàn)成長評估的一個重要條件是美國從20世紀初就發(fā)展起來的學(xué)生數(shù)據(jù)庫。雖然各州開發(fā)學(xué)生數(shù)據(jù)庫的進度快慢不等,但基本都已有5~20年的歷史。學(xué)生數(shù)據(jù)庫的一個重要指標是學(xué)號(student identifier number),與每個學(xué)生一一對應(yīng),在一個州或多個州都是獨一無二的。根據(jù)學(xué)號可以從兒童兩三歲跟蹤到高中畢業(yè),直到進入大學(xué)和就業(yè)。

3  7種主要的成長測量模型

常用的成長測量模型有7種,可以分為基于縱向量表的模型、預(yù)測模型和增值模型3類。美國各州根據(jù)使用目的和成績解釋框架,選用不同的成長測量模型。

3.1 基于縱向量表的模型

基于縱向量表的成長模型是根據(jù)跨年級的縱向量表來測量學(xué)生學(xué)習(xí)成績的絕對提高,是將學(xué)生的當前成績與其過去成績進行比較,看其取得了怎樣的進步成長,包括增分、漸進達標和分類3種。

1)增分(gain score)模型。這種模型是計算2次測試的差異,用后一次測試的分數(shù)減去前一次測試的分數(shù),二者之差就是成長指標。由于這種方法簡便、直觀、容易理解,因此使用非常廣泛,常常會伴隨其他方法同時使用,是“漸進達標模型”的基礎(chǔ)。

2)漸進達標(trajectory)模型。這種模型根據(jù)最初2年的增分幅度,確定今后每年的進步值,最終達到預(yù)期的成長目標。采用此模型的主要有阿拉斯加州、亞利桑那州、阿肯色州、北卡羅來納州、佛羅里達州、康涅狄格州、緬因州、明尼蘇達州等。

3)分類(categorical)模型。主要看跨年級成績等級的變化,比如美國全國教育進步評估項目(National Assessment of Educational Progress,NAEP)的測試結(jié)果劃分為低于基本要求(below basic)、達到基本要求(basic)、達標(proficient)和優(yōu)秀(advanced)4個等級。如果一個學(xué)生從“達到基本要求”上升到“達標”,就有進步。分類模型對等級劃分有很高的要求,等級標準的制定也是一個很復(fù)雜、很嚴密的過程。采用這種模型的主要有德里瓦爾州、衣阿華州等。

上述3種模型都需要直接看學(xué)生本人在前后2次考試中分數(shù)或等級的絕對變化,據(jù)此回答學(xué)生究竟取得了怎樣的進步。這3種模式都不僅需要有跨年級的縱向量表,而且需要制定一些表現(xiàn)為及格線或切分點(cut score)的進步標準。在達標標準的制定過程中,既要考慮各個年級的學(xué)生需要達到的知識和能力水平,也要考慮本校、本學(xué)區(qū)、本州同年級學(xué)生的實際水平,是一個兼顧標準參照(criterion reference)和常模參照(norm reference)的過程,同時還要考慮達到最終目標所需年限。

美國有近20個州使用由智者平衡評估聯(lián)盟(The Smarter Balanced Assessment Consortium,SBAC)開發(fā)的測試系統(tǒng)進行教育評估和問責。SBAC系統(tǒng)是一個有效、公平、可靠的學(xué)生評估工具,是一個跨年級的縱向?qū)W習(xí)評估量表,可以為學(xué)生、家長、教師、教育管理人員提供作為行動依據(jù)的評估信息,提供關(guān)于學(xué)生學(xué)習(xí)情況的反饋信息,幫助學(xué)生改進學(xué)習(xí),幫助教師和教育機構(gòu)改進教學(xué)。《共同核心國家標準》(Common Core State Standards,CCSS)是美國從學(xué)前班到高中教育的國家標準,SBAC對學(xué)生進行評估的依據(jù)是CCSS。SBAC旨在幫助學(xué)生為未來的大學(xué)學(xué)習(xí)或就業(yè)做好必要的知識和能力準備,由3個模塊組成:一是形成性評價過程和數(shù)字資料庫(The Formative Assessment Process and the Digital Library),在數(shù)字資料庫中,包含大量教學(xué)參考資料和用于形成性評估的題目,供使用者參考;二是中期評價,即選擇性階段性測試(Interim Assessment: The Optional Periodic Test);三是總結(jié)性評估,即年終測試(Summative Assessment: The End-of-Year Test)。

美國還有10個州使用《大學(xué)學(xué)習(xí)和就業(yè)準備聯(lián)合測試》(Partnership for the Assessment of Readiness for College and Career,PARCC)。PARCC由多個州聯(lián)合開發(fā),用于測試基礎(chǔ)教育各個年級的學(xué)業(yè)水平,主要考查順利完成大學(xué)學(xué)習(xí)和勝任職業(yè)所需要的知識和能力,考查范圍包括學(xué)術(shù)知識、審辯式思維(critical thinking)、運用知識解決問題的能力、在收集信息的基礎(chǔ)上形成個人看法的能力、論證并能夠與他人溝通個人想法的能力,等等。與SBAC一樣,PARCC也是以CCSS為依據(jù)對學(xué)生進行評估。

以美國康涅狄格州為例說明漸進達標模型的測量方法,測試工具采用的是SBAC。表1是康涅狄格州SBAC測試分數(shù)的匯總表,表中包含康涅狄格州3~8年級的SBAC測試結(jié)果。SBAC量表的分數(shù)范圍為2100~2800。康涅狄格州根據(jù)學(xué)生實際得分和知識掌握情況為每個年級分別規(guī)定了“達標”和“成長”標準。從表1的左上角到右下角,顯示了一個3年級學(xué)生經(jīng)過5年學(xué)習(xí)升入8年級的漸進成長方向和成長過程,顯示了不同水平的學(xué)生從SBAC測試的2100分成長到2800分的漸進過程。比如,4年級學(xué)生瑪麗在2017年3年級時SBAC測試的成績是2450分,這個分數(shù)在2432~2460分之間,屬于3年級低水平的達標范圍;2018年瑪麗的測試成績達到2518分,處于2503~2532分之間,屬于4年級高水平的達標范圍。從瑪麗2017年和2018年的測試分數(shù)中,我們不僅可以看到瑪麗的“達標”水平,還可以看到瑪麗的“成長”,與2017年相比,她的成績不僅獲得了68分的增長,而且獲得了從低水平達標變?yōu)楦咚竭_標的“增級”。

640.jpg

3.2 預(yù)測模型

預(yù)測模型包括殘差、學(xué)生成長百分等級和投射3種。與前述基于縱向量表的3種模型相同,這類成長模型也需要至少2次測試結(jié)果。但是,這類模型并不基于跨年級縱向量表之上,2次或多次測試并不要求采用縱向量表,而是采用線性和非線性的統(tǒng)計模型,主要是回歸模型,或者以學(xué)生的同年級常模群體作為參照系,或者以大量積累的歷史數(shù)據(jù)和追蹤數(shù)據(jù)作為參照系,刻畫學(xué)生所獲得的成長。

1)殘差(the residual gain)模型。這是一種最容易理解的回歸方法,只能應(yīng)用于連續(xù)數(shù)據(jù),不適用于及格/不及格的二分計分方法,也不適用于A、B、C、D的等級計分方法。殘差模型的基本計算方法是:在2年的年級成績之間建立線性回歸方程,根據(jù)回歸方程和某學(xué)生上一年的成績,計算出該學(xué)生今年的預(yù)期成績,然后計算該學(xué)生預(yù)期成績與實際成績之間的“殘差”。如果實際成績高于預(yù)期成績,該學(xué)生就取得了比較滿意的“成長”;相反,則“成長”的情況不理想。在實際的操作中,通常會將殘差進行標準化處理,處理的方法是進行殘差百分等級排列(percentile rank of residual,PRR)。

2)學(xué)生成長百分等級(student growth percentile,SGP)模型。2009 年,達米安·比特本納(Damien Betebeener)開發(fā)了基于R語言的SGP數(shù)據(jù)處理軟件——Quantile。借助 Quantile軟件,學(xué)生當年的成績與在前一年測試中獲得相同成績的群體進行比較,計算出其在這一與自己相近水平群體中的百分等級,即在1~99百分等級序列中所處位置。如果百分等級高于50,就顯示這個學(xué)生一年來有所“成長”;如果百分等級低于50,就顯示這個學(xué)生的“成長”效果不理想。SGP模型也被稱為正態(tài)模型(normative model),因為這個模型假設(shè)與考生第一年分數(shù)相同的群體在第二年所得分數(shù)呈正態(tài)分布。這一模型最初被應(yīng)用于科羅拉多州。目前,美國國家教育評估改進中心(National Center for the Improvement of Educational Assessment,NCIEA)向采用SGP模型的美國各州提供便于根據(jù)自身需要進行完善的開源(open-source)SGP軟件包,已有20多個州(包括華盛頓特區(qū)、馬里蘭州、科羅拉多州、馬塞諸塞州、俄勒崗州、華盛頓州等)采用此模型,占所有使用成長模型的州的50%以上,在美國是使用最廣泛的一種成長模型。

3)投射(projection)模型,也稱為預(yù)測(prediction)模型和回歸(regression)模型。在投射模型回歸方程的建立中,采用盡可能多的歷史數(shù)據(jù)和追蹤數(shù)據(jù)來建立盡可能可靠、有效的回歸方程,通常不僅僅采用2年的數(shù)據(jù),而是采用多年的追蹤數(shù)據(jù),通過盡可能多的預(yù)測源和預(yù)測變量來建立回歸方程。例如,如果有證據(jù)表明數(shù)學(xué)成績可以增加對物理成績的預(yù)測準確性,就可以將數(shù)學(xué)成績作為一種預(yù)測源包含進回歸方程。

與漸進達標模型和殘差模型一樣,投射模型也需要建立回歸方程,但是與二者有一定的區(qū)別。與漸進達標模型的區(qū)別在于,漸進達標模型是建立在跨年級縱向量表的基礎(chǔ)之上,是一種“量表驅(qū)動”(scale driven)的回歸方法;投射模型則不依賴于縱向量表,而是通過大量的歷史數(shù)據(jù)建立起預(yù)測學(xué)生成長趨勢的回歸方程,是一種“數(shù)據(jù)驅(qū)動”(data driven)的回歸方法。與殘差模型的區(qū)別在于,投射模型不是根據(jù)考生所在年級學(xué)生2次測試成績來建立回歸方程,而是根據(jù)大量的不同年級的歷史數(shù)據(jù)和追蹤數(shù)據(jù)來建立回歸方程,并根據(jù)回歸方程作出預(yù)測。在漸進達標模型中,量表相同,但參照團體不同;在殘差模型中,參照團體相同,但量表不同;在投射模型中,量表不同,參照團體也可能不同。

如果說,借助相同量表或相同參照群體,漸進達標模型和殘差模型可以對考生的期望成績進行“預(yù)測”,可以對學(xué)生的成長情況進行描述,那么,既無相同量表也非相同參照群體的投射模型只能進行“投射”,只能對關(guān)于學(xué)生成長的解釋作出有限的支持。俄亥俄州、田納西州等曾經(jīng)采用此模型。

3.3 增值模型

增值(value added)模型單獨構(gòu)成一類成長模型。增值模型,又稱為多變量(multivariate)模型、教育增值評估系統(tǒng)(Education Value-Added Assessment System,EVAAS)、田納西增值評估系統(tǒng)(Tennessee Value-Added Assessment System,TVAAS)、變量保持(Variable Persistence)模型,等等。在增值模型中,不僅包含測試分數(shù),而且包含多種變量。增值模型不僅描述學(xué)生的成長狀況,而且分析影響學(xué)生成長的原因。在一些州,增值模型不僅用于學(xué)生評估,而且用于教師、學(xué)校和學(xué)區(qū)評估,甚至被用于決定教師的獎金和聘用。最常用的增值計算工具是EVAAS軟件系統(tǒng),其次是層級線性和非線性模型(Hierarchical Linear and Nonlinear Modeling,HLM)。采用增值模型的主要有田納西州、賓夕法尼亞州、俄亥俄州等。

由于增值模型被用于對教師、校長、學(xué)校的評價以至決定獎懲,近年來許多專家學(xué)者呼吁慎重使用增值評估。2015年,美國最大的教育組織——美國教育研究協(xié)會(American Educational Research Association, AERA)的理事會正式發(fā)布了一份官方文件——《AERA關(guān)于將增值模型應(yīng)用于教師和教師培訓(xùn)項目的說明》(AERA Statement on Use of ValueAdded Models for the Evaluation of Educators and Educator Preparation Programs)。在這份文件中,強調(diào)了使用增值模型的8條注意事項:1)增值模型使用的前提是測驗本身的效度、信度符合美國教育研究協(xié)會、美國心理學(xué)會和美國教育測量學(xué)會共同制定頒布的《教育與心理測驗標準》(Standards for Educational and Psychological Testing);2)增值模型使用中,需要提供這種模型中所包含每個評估項目的效度和信度說明;3)增值模型必須基于足夠大樣本量的多年數(shù)據(jù);4)不同時間使用的不同測驗或測驗版本之間具有可比性;5)單獨檢驗每個年級、每個學(xué)科的測驗效度和信度,不能將增值評估應(yīng)用于未經(jīng)標準化質(zhì)量檢驗的其他年級和學(xué)科;6)在教師、學(xué)校、教育項目評估中需要綜合考慮多方面證據(jù),不能僅僅使用增值分數(shù)對教師、學(xué)校、教育項目進行評價;7)增值模型的使用過程中應(yīng)保持持續(xù)的質(zhì)量監(jiān)測,持續(xù)關(guān)注實際的使用效果;8)使用增值模型進行評估和決策,在報告相關(guān)結(jié)果時必須同時提供統(tǒng)計誤差范圍。

AERA在這份文件的結(jié)尾處指出,這8條注意事項不僅適用于增值模型,也適用于其他任何一種成長評估模型。在使用各種成長評估方法對教師、學(xué)校和教育項目進行評價時,都應(yīng)該保持謹慎。

上述7種模型并無簡單的好壞優(yōu)劣之分,各有長處和不足,使用方法的簡單比較見表2。對于不同的模型,可以對評估結(jié)果作出不同的解釋。至于選擇哪種模型,要考慮分數(shù)解釋的不同需要。

640.jpg

在上述7種成長模型之外,教育問責中還會采用一些其他的評估指標,包括:1)參加考試的學(xué)生比率;2)考試平均分或熟練掌握比率;3)學(xué)生平均出勤率;4)高中學(xué)生畢業(yè)率;5)7~12年級的輟學(xué)率;6)學(xué)生和家長對學(xué)校教師的滿意程度;7)教師流失率;等等。

2018年3月16日,教育部部長陳寶生在“兩會”教育問題專題記者招待會上回答記者的提問時說:“要改變評價方式,完善學(xué)業(yè)考試辦法,建立素質(zhì)綜合評價制度,不允許以分數(shù)高低對學(xué)生排名”“這次高考改革之后,高中階段對學(xué)生的考核,增加了綜合素質(zhì)評價這樣一個內(nèi)容。這是非常明顯的素質(zhì)教育措施”。美國基礎(chǔ)教育評估從“達標模型”到“達標+成長模型”的發(fā)展變化,從幼兒園到高中教育中所采用的7種主要的成長評估模型,可以為我國改進和完善基礎(chǔ)教育的綜合素質(zhì)評價帶來一些啟發(fā),值得我們思考和借鑒。

本文轉(zhuǎn)自微信公眾號“中國考試”。文章為作者獨立觀點,不代表芥末堆立場。

1、本文是 芥末堆網(wǎng)轉(zhuǎn)載文章,原文:中國考試;
2、芥末堆不接受通過公關(guān)費、車馬費等任何形式發(fā)布失實文章,只呈現(xiàn)有價值的內(nèi)容給讀者;
3、如果你也從事教育,并希望被芥末堆報道,請您 填寫信息告訴我們。
來源:中國考試
芥末堆商務(wù)合作:王老師 18710003484
  • 不是身高也不是體重,美國學(xué)?!俺砷L測量”的7種主要方法分享二維碼