久久手机精品视频,国产精品456在线播放

圖片來源：Unsplash

作者介紹：
王曉平，博士，美國衣阿華州教育部，教育研究與評估高級顧問；
齊森，博士，華盛頓蓋勞德特大學(xué)，研究員；
謝小慶，北京語言大學(xué)教育測量研究所原所長，中國教育學(xué)會統(tǒng)計測量分會副理事長，研究
員，博士生導(dǎo)師。

*原文刊載于《中國考試》2018年第6期第21—27頁。

摘要：“成長”和“增值”是美國教育領(lǐng)域的熱門話題。根據(jù)2015年通過的《每一個學(xué)生都成功法案》，美國各州在問責中加大了評價學(xué)生成長進步的比重，目前美國大多數(shù)州都對學(xué)生進行成長測量。常用的成長測量模型有7種，需要根據(jù)使用目的和成績解釋框架進行選擇。本文簡要介紹7種模型的使用方法，為改進我國基礎(chǔ)教育評估提供思路。

關(guān)鍵詞：成長模型；增值評估；基礎(chǔ)教育評估；教育改革

2015年，經(jīng)過美國參眾兩院討論，最終通過了新的教育改革法案——《每一個學(xué)生都成功法案》（Every Student Succeeds Act，ESSA），12月10日，奧巴馬總統(tǒng)正式簽署該法案。這意味著，美國的教育改革進入一個新的階段。《每一個學(xué)生都成功法案》于2018年正式實行，各州在貫徹執(zhí)行過程中，通過對學(xué)生成績進步進行評估，對教師、學(xué)校和學(xué)區(qū)進行評價和問責。

1 背景：從“達標”到“達標+成長”

教育問題是美國歷屆總統(tǒng)關(guān)心的話題之一。2001年1月23日，小布什總統(tǒng)在宣誓就職后3天就推出了被稱為“一個都不能少”（No Child Left Behind，NCLB）的教育改革方案，并于2002年1月8日正式簽署該法案。其后，美國展開了一場轟轟烈烈的教育改革運動，“一個都不能少”的口號家喻戶曉，“一個都不能少”的教育改革在法律的保護下穩(wěn)步推進。

NCLB教育改革最核心的理念是“達標”（proficient）和“問責”（accountability）。達標，就是要求所有學(xué)生都要完成規(guī)定的學(xué)習(xí)任務(wù)，達到規(guī)定的知識掌握水平和能力要求，具體的措施是要求各州從2003年開始在3~8年級的各年級、9~12年級中的一個年級（一般是10年級或11年級）進行州統(tǒng)考，到2014年各學(xué)區(qū)和學(xué)校要使其學(xué)生100%達標。如果有學(xué)生不能達到最低要求，出現(xiàn)“掉隊”，就要對學(xué)校和教師進行問責。在實際推進過程中發(fā)現(xiàn)，這一目標根本無法實現(xiàn)。盡管考試難度不斷降低，仍然會有一些學(xué)生無法達標，一些學(xué)生甚至距離標準差距很大。

NCLB在解決學(xué)生“掉隊”方面取得了一定成效，但是卻帶來新的問題。比如，教師和學(xué)生的壓力增加，考試成為學(xué)校日常工作的指揮棒；在問責的壓力下，許多中小學(xué)都不同程度地采取了應(yīng)試措施；州統(tǒng)考科目在時間、資源、教師等方面得到加強，其他非統(tǒng)考科目（包括美術(shù)、音樂、體育等）則被削弱；為了達標，不少中小學(xué)延長學(xué)校上課時間，放學(xué)后補課，縮減了學(xué)生的休息時間；等等。NCLB導(dǎo)致的“應(yīng)試教育”束縛了教師的創(chuàng)造力，“應(yīng)試教育”造成的競爭性教育環(huán)境使學(xué)生的好奇心受到挫傷，其弊端日益顯現(xiàn)。因此，小布什的教育改革遭到一些教育專家的批評，尤其是遭到來自基層教師的抵制。NCLB的改革初衷本在扭轉(zhuǎn)大批學(xué)生“掉隊”問題，但是改革帶來的“應(yīng)試教育”卻傷害到學(xué)生的個性發(fā)展，束縛了教師的個性化創(chuàng)造。如何在“救濟后進”和“保護優(yōu)秀”之間找到一個平衡點，或者說如何在二者之間找到一個適度的妥協(xié)點，是奧巴馬就任總統(tǒng)后一直關(guān)注的問題，ESSA就是在這樣的背景下產(chǎn)生的。

與強調(diào)“一個都不能少”的NCLB相比，強調(diào)“人人成功”的ESSA的突出特點是以“達標+成長”的概念取代了原來的“達標”概念。實際上，由于許多學(xué)生不能達到最低知識和能力要求，早在2005年，小布什政府的教育部長、NCLB的主要推手瑪格麗特·斯派林斯（Margaret Spellings）就提出不僅要評估掌握程度，而且要考慮考試成績的改善和學(xué)生所取得的進步，要對“成長”（growth）進行評估。成長模型最初只用在差生群體，從2008年起，美國各州的問責中逐步添加了對所有學(xué)生成績進步的評估，即“成長評估”。到2011年，美國至少有包括阿拉巴馬、亞利桑那、阿肯色、佛羅里達等在內(nèi)的16個州在教育問責中采用了成長測量。

根據(jù)ESSA，美國各州對學(xué)校的問責有了更多的自主權(quán)，與此同時，各州也在問責中加大了評價學(xué)生成長進步的比重。目前美國大多數(shù)州都對學(xué)生進行成長測量。

2 什么是“成長”？

“成長”和“增值”是美國教育領(lǐng)域中的熱門話題。人們認識到，由于學(xué)生的原有基礎(chǔ)不同，僅僅根據(jù)一個學(xué)習(xí)階段的結(jié)業(yè)水平對學(xué)生、教師和學(xué)校進行評價是不合理的。相對于一個學(xué)習(xí)階段結(jié)束時的終結(jié)性達標評價，“成長”評價更重要。在學(xué)習(xí)中，需要更多地關(guān)注學(xué)生經(jīng)過學(xué)習(xí)以后獲得了多大程度的成長，需要關(guān)注教師和學(xué)校在幫助學(xué)生獲得成長方面所發(fā)揮的實際作用。

“成長”評價不僅是一種教育評價技術(shù)，更是一種學(xué)習(xí)理念。如果以學(xué)習(xí)的“成長”理念來審視學(xué)校教育，可以發(fā)現(xiàn)，一個學(xué)期的課堂學(xué)習(xí)，對于學(xué)生的成長效應(yīng)是很有限的，即使在一些辦學(xué)條件很好的學(xué)校。學(xué)校不應(yīng)僅僅關(guān)注每個學(xué)生是否掌握了教學(xué)大綱中所規(guī)定的知識內(nèi)容，更需要關(guān)注每個學(xué)生是否獲得了成長的機會，是否通過學(xué)習(xí)達到了成長的效果。

成長模型（growth model）的評估對象是在校學(xué)生，評估的內(nèi)容是學(xué)習(xí)成果，既評估學(xué)生學(xué)習(xí)成果隨時間的變化，也評估學(xué)生在特定群體（全班、全校、全學(xué)區(qū)、全州、全國）中相對位置的變化。在成長模型中，至少要包含間隔一定時間的2次評估，有條件時，最好是多次評估。成長評估的主要目的是向家長、教師、學(xué)校提供更多關(guān)于學(xué)生學(xué)習(xí)情況的信息，以便改進學(xué)習(xí)和教學(xué)，并便于對教師、學(xué)校進行問責。

實現(xiàn)成長評估的一個重要條件是美國從20世紀初就發(fā)展起來的學(xué)生數(shù)據(jù)庫。雖然各州開發(fā)學(xué)生數(shù)據(jù)庫的進度快慢不等，但基本都已有5~20年的歷史。學(xué)生數(shù)據(jù)庫的一個重要指標是學(xué)號（student identifier number），與每個學(xué)生一一對應(yīng)，在一個州或多個州都是獨一無二的。根據(jù)學(xué)號可以從兒童兩三歲跟蹤到高中畢業(yè)，直到進入大學(xué)和就業(yè)。

3 7種主要的成長測量模型

常用的成長測量模型有7種，可以分為基于縱向量表的模型、預(yù)測模型和增值模型3類。美國各州根據(jù)使用目的和成績解釋框架，選用不同的成長測量模型。

3.1　基于縱向量表的模型

基于縱向量表的成長模型是根據(jù)跨年級的縱向量表來測量學(xué)生學(xué)習(xí)成績的絕對提高，是將學(xué)生的當前成績與其過去成績進行比較，看其取得了怎樣的進步成長，包括增分、漸進達標和分類3種。

1）增分（gain score）模型。這種模型是計算2次測試的差異，用后一次測試的分數(shù)減去前一次測試的分數(shù)，二者之差就是成長指標。由于這種方法簡便、直觀、容易理解，因此使用非常廣泛，常常會伴隨其他方法同時使用，是“漸進達標模型”的基礎(chǔ)。

2）漸進達標（trajectory）模型。這種模型根據(jù)最初2年的增分幅度，確定今后每年的進步值，最終達到預(yù)期的成長目標。采用此模型的主要有阿拉斯加州、亞利桑那州、阿肯色州、北卡羅來納州、佛羅里達州、康涅狄格州、緬因州、明尼蘇達州等。

3）分類（categorical）模型。主要看跨年級成績等級的變化，比如美國全國教育進步評估項目（National Assessment of Educational Progress，NAEP）的測試結(jié)果劃分為低于基本要求（below basic）、達到基本要求（basic）、達標（proficient）和優(yōu)秀（advanced）4個等級。如果一個學(xué)生從“達到基本要求”上升到“達標”，就有進步。分類模型對等級劃分有很高的要求，等級標準的制定也是一個很復(fù)雜、很嚴密的過程。采用這種模型的主要有德里瓦爾州、衣阿華州等。

上述3種模型都需要直接看學(xué)生本人在前后2次考試中分數(shù)或等級的絕對變化，據(jù)此回答學(xué)生究竟取得了怎樣的進步。這3種模式都不僅需要有跨年級的縱向量表，而且需要制定一些表現(xiàn)為及格線或切分點（cut score）的進步標準。在達標標準的制定過程中，既要考慮各個年級的學(xué)生需要達到的知識和能力水平，也要考慮本校、本學(xué)區(qū)、本州同年級學(xué)生的實際水平，是一個兼顧標準參照（criterion reference）和常模參照（norm reference）的過程，同時還要考慮達到最終目標所需年限。

美國有近20個州使用由智者平衡評估聯(lián)盟（The Smarter Balanced Assessment Consortium，SBAC）開發(fā)的測試系統(tǒng)進行教育評估和問責。SBAC系統(tǒng)是一個有效、公平、可靠的學(xué)生評估工具，是一個跨年級的縱向?qū)W習(xí)評估量表，可以為學(xué)生、家長、教師、教育管理人員提供作為行動依據(jù)的評估信息，提供關(guān)于學(xué)生學(xué)習(xí)情況的反饋信息，幫助學(xué)生改進學(xué)習(xí)，幫助教師和教育機構(gòu)改進教學(xué)。《共同核心國家標準》（Common Core State Standards，CCSS）是美國從學(xué)前班到高中教育的國家標準，SBAC對學(xué)生進行評估的依據(jù)是CCSS。SBAC旨在幫助學(xué)生為未來的大學(xué)學(xué)習(xí)或就業(yè)做好必要的知識和能力準備，由3個模塊組成：一是形成性評價過程和數(shù)字資料庫（The Formative Assessment Process and the Digital Library），在數(shù)字資料庫中，包含大量教學(xué)參考資料和用于形成性評估的題目，供使用者參考；二是中期評價，即選擇性階段性測試（Interim Assessment: The Optional Periodic Test）；三是總結(jié)性評估，即年終測試（Summative Assessment: The End-of-Year Test）。

美國還有10個州使用《大學(xué)學(xué)習(xí)和就業(yè)準備聯(lián)合測試》（Partnership for the Assessment of Readiness for College and Career，PARCC）。PARCC由多個州聯(lián)合開發(fā)，用于測試基礎(chǔ)教育各個年級的學(xué)業(yè)水平，主要考查順利完成大學(xué)學(xué)習(xí)和勝任職業(yè)所需要的知識和能力，考查范圍包括學(xué)術(shù)知識、審辯式思維（critical thinking）、運用知識解決問題的能力、在收集信息的基礎(chǔ)上形成個人看法的能力、論證并能夠與他人溝通個人想法的能力，等等。與SBAC一樣，PARCC也是以CCSS為依據(jù)對學(xué)生進行評估。

以美國康涅狄格州為例說明漸進達標模型的測量方法，測試工具采用的是SBAC。表1是康涅狄格州SBAC測試分數(shù)的匯總表，表中包含康涅狄格州3~8年級的SBAC測試結(jié)果。SBAC量表的分數(shù)范圍為2100~2800。康涅狄格州根據(jù)學(xué)生實際得分和知識掌握情況為每個年級分別規(guī)定了“達標”和“成長”標準。從表1的左上角到右下角，顯示了一個3年級學(xué)生經(jīng)過5年學(xué)習(xí)升入8年級的漸進成長方向和成長過程，顯示了不同水平的學(xué)生從SBAC測試的2100分成長到2800分的漸進過程。比如，4年級學(xué)生瑪麗在2017年3年級時SBAC測試的成績是2450分，這個分數(shù)在2432~2460分之間，屬于3年級低水平的達標范圍；2018年瑪麗的測試成績達到2518分，處于2503~2532分之間，屬于4年級高水平的達標范圍。從瑪麗2017年和2018年的測試分數(shù)中，我們不僅可以看到瑪麗的“達標”水平，還可以看到瑪麗的“成長”，與2017年相比，她的成績不僅獲得了68分的增長，而且獲得了從低水平達標變?yōu)楦咚竭_標的“增級”。

3.2　預(yù)測模型

預(yù)測模型包括殘差、學(xué)生成長百分等級和投射3種。與前述基于縱向量表的3種模型相同，這類成長模型也需要至少2次測試結(jié)果。但是，這類模型并不基于跨年級縱向量表之上，2次或多次測試并不要求采用縱向量表，而是采用線性和非線性的統(tǒng)計模型，主要是回歸模型，或者以學(xué)生的同年級常模群體作為參照系，或者以大量積累的歷史數(shù)據(jù)和追蹤數(shù)據(jù)作為參照系，刻畫學(xué)生所獲得的成長。

1）殘差（the residual gain）模型。這是一種最容易理解的回歸方法，只能應(yīng)用于連續(xù)數(shù)據(jù)，不適用于及格/不及格的二分計分方法，也不適用于A、B、C、D的等級計分方法。殘差模型的基本計算方法是：在2年的年級成績之間建立線性回歸方程，根據(jù)回歸方程和某學(xué)生上一年的成績，計算出該學(xué)生今年的預(yù)期成績，然后計算該學(xué)生預(yù)期成績與實際成績之間的“殘差”。如果實際成績高于預(yù)期成績，該學(xué)生就取得了比較滿意的“成長”；相反，則“成長”的情況不理想。在實際的操作中，通常會將殘差進行標準化處理，處理的方法是進行殘差百分等級排列（percentile rank of residual，PRR）。

2）學(xué)生成長百分等級（student growth percentile，SGP）模型。2009 年，達米安·比特本納（Damien Betebeener）開發(fā)了基于R語言的SGP數(shù)據(jù)處理軟件——Quantile。借助 Quantile軟件，學(xué)生當年的成績與在前一年測試中獲得相同成績的群體進行比較，計算出其在這一與自己相近水平群體中的百分等級，即在1~99百分等級序列中所處位置。如果百分等級高于50，就顯示這個學(xué)生一年來有所“成長”；如果百分等級低于50，就顯示這個學(xué)生的“成長”效果不理想。SGP模型也被稱為正態(tài)模型（normative model），因為這個模型假設(shè)與考生第一年分數(shù)相同的群體在第二年所得分數(shù)呈正態(tài)分布。這一模型最初被應(yīng)用于科羅拉多州。目前，美國國家教育評估改進中心（National Center for the Improvement of Educational Assessment，NCIEA）向采用SGP模型的美國各州提供便于根據(jù)自身需要進行完善的開源（open-source）SGP軟件包，已有20多個州（包括華盛頓特區(qū)、馬里蘭州、科羅拉多州、馬塞諸塞州、俄勒崗州、華盛頓州等）采用此模型，占所有使用成長模型的州的50%以上，在美國是使用最廣泛的一種成長模型。

3）投射（projection）模型，也稱為預(yù)測（prediction）模型和回歸（regression）模型。在投射模型回歸方程的建立中，采用盡可能多的歷史數(shù)據(jù)和追蹤數(shù)據(jù)來建立盡可能可靠、有效的回歸方程，通常不僅僅采用2年的數(shù)據(jù)，而是采用多年的追蹤數(shù)據(jù)，通過盡可能多的預(yù)測源和預(yù)測變量來建立回歸方程。例如，如果有證據(jù)表明數(shù)學(xué)成績可以增加對物理成績的預(yù)測準確性，就可以將數(shù)學(xué)成績作為一種預(yù)測源包含進回歸方程。

與漸進達標模型和殘差模型一樣，投射模型也需要建立回歸方程，但是與二者有一定的區(qū)別。與漸進達標模型的區(qū)別在于，漸進達標模型是建立在跨年級縱向量表的基礎(chǔ)之上，是一種“量表驅(qū)動”（scale driven）的回歸方法；投射模型則不依賴于縱向量表，而是通過大量的歷史數(shù)據(jù)建立起預(yù)測學(xué)生成長趨勢的回歸方程，是一種“數(shù)據(jù)驅(qū)動”（data driven）的回歸方法。與殘差模型的區(qū)別在于，投射模型不是根據(jù)考生所在年級學(xué)生2次測試成績來建立回歸方程，而是根據(jù)大量的不同年級的歷史數(shù)據(jù)和追蹤數(shù)據(jù)來建立回歸方程，并根據(jù)回歸方程作出預(yù)測。在漸進達標模型中，量表相同，但參照團體不同；在殘差模型中，參照團體相同，但量表不同；在投射模型中，量表不同，參照團體也可能不同。

如果說，借助相同量表或相同參照群體，漸進達標模型和殘差模型可以對考生的期望成績進行“預(yù)測”，可以對學(xué)生的成長情況進行描述，那么，既無相同量表也非相同參照群體的投射模型只能進行“投射”，只能對關(guān)于學(xué)生成長的解釋作出有限的支持。俄亥俄州、田納西州等曾經(jīng)采用此模型。

3.3　增值模型

增值（value added）模型單獨構(gòu)成一類成長模型。增值模型，又稱為多變量（multivariate）模型、教育增值評估系統(tǒng)（Education Value-Added Assessment System，EVAAS）、田納西增值評估系統(tǒng)（Tennessee Value-Added Assessment System，TVAAS）、變量保持（Variable Persistence）模型，等等。在增值模型中，不僅包含測試分數(shù)，而且包含多種變量。增值模型不僅描述學(xué)生的成長狀況，而且分析影響學(xué)生成長的原因。在一些州，增值模型不僅用于學(xué)生評估，而且用于教師、學(xué)校和學(xué)區(qū)評估，甚至被用于決定教師的獎金和聘用。最常用的增值計算工具是EVAAS軟件系統(tǒng)，其次是層級線性和非線性模型（Hierarchical Linear and Nonlinear Modeling，HLM）。采用增值模型的主要有田納西州、賓夕法尼亞州、俄亥俄州等。

由于增值模型被用于對教師、校長、學(xué)校的評價以至決定獎懲，近年來許多專家學(xué)者呼吁慎重使用增值評估。2015年，美國最大的教育組織——美國教育研究協(xié)會（American Educational Research Association, AERA）的理事會正式發(fā)布了一份官方文件——《AERA關(guān)于將增值模型應(yīng)用于教師和教師培訓(xùn)項目的說明》（AERA Statement on Use of ValueAdded Models for the Evaluation of Educators and Educator Preparation Programs）。在這份文件中，強調(diào)了使用增值模型的8條注意事項：1）增值模型使用的前提是測驗本身的效度、信度符合美國教育研究協(xié)會、美國心理學(xué)會和美國教育測量學(xué)會共同制定頒布的《教育與心理測驗標準》（Standards for Educational and Psychological Testing）；2）增值模型使用中，需要提供這種模型中所包含每個評估項目的效度和信度說明；3）增值模型必須基于足夠大樣本量的多年數(shù)據(jù)；4）不同時間使用的不同測驗或測驗版本之間具有可比性；5）單獨檢驗每個年級、每個學(xué)科的測驗效度和信度，不能將增值評估應(yīng)用于未經(jīng)標準化質(zhì)量檢驗的其他年級和學(xué)科；6）在教師、學(xué)校、教育項目評估中需要綜合考慮多方面證據(jù)，不能僅僅使用增值分數(shù)對教師、學(xué)校、教育項目進行評價；7）增值模型的使用過程中應(yīng)保持持續(xù)的質(zhì)量監(jiān)測，持續(xù)關(guān)注實際的使用效果；8）使用增值模型進行評估和決策，在報告相關(guān)結(jié)果時必須同時提供統(tǒng)計誤差范圍。

AERA在這份文件的結(jié)尾處指出，這8條注意事項不僅適用于增值模型，也適用于其他任何一種成長評估模型。在使用各種成長評估方法對教師、學(xué)校和教育項目進行評價時，都應(yīng)該保持謹慎。

上述7種模型并無簡單的好壞優(yōu)劣之分，各有長處和不足，使用方法的簡單比較見表2。對于不同的模型，可以對評估結(jié)果作出不同的解釋。至于選擇哪種模型，要考慮分數(shù)解釋的不同需要。

在上述7種成長模型之外，教育問責中還會采用一些其他的評估指標，包括：1）參加考試的學(xué)生比率；2）考試平均分或熟練掌握比率；3）學(xué)生平均出勤率；4）高中學(xué)生畢業(yè)率；5）7~12年級的輟學(xué)率；6）學(xué)生和家長對學(xué)校教師的滿意程度；7）教師流失率；等等。

2018年3月16日，教育部部長陳寶生在“兩會”教育問題專題記者招待會上回答記者的提問時說：“要改變評價方式，完善學(xué)業(yè)考試辦法，建立素質(zhì)綜合評價制度，不允許以分數(shù)高低對學(xué)生排名”“這次高考改革之后，高中階段對學(xué)生的考核，增加了綜合素質(zhì)評價這樣一個內(nèi)容。這是非常明顯的素質(zhì)教育措施”。美國基礎(chǔ)教育評估從“達標模型”到“達標+成長模型”的發(fā)展變化，從幼兒園到高中教育中所采用的7種主要的成長評估模型，可以為我國改進和完善基礎(chǔ)教育的綜合素質(zhì)評價帶來一些啟發(fā)，值得我們思考和借鑒。

本文轉(zhuǎn)自微信公眾號“中國考試”。文章為作者獨立觀點，不代表芥末堆立場。

評估

1、本文是芥末堆網(wǎng)轉(zhuǎn)載文章，原文：中國考試；
2、芥末堆不接受通過公關(guān)費、車馬費等任何形式發(fā)布失實文章，只呈現(xiàn)有價值的內(nèi)容給讀者；
3、如果你也從事教育，并希望被芥末堆報道，請您填寫信息告訴我們。

來源：中國考試

芥末堆商務(wù)合作：王老師 18710003484

不是身高也不是體重，美國學(xué)?！俺砷L測量”的7種主要方法

不是身高也不是體重，美國學(xué)?！俺砷L測量”的7種主要方法

圖片來源：Unsplash

1 背景：從“達標”到“達標+成長”

2 什么是“成長”？

3 7種主要的成長測量模型

編輯推薦

不是身高也不是體重，美國學(xué)?！俺砷L測量”的7種主要方法

不是身高也不是體重，美國學(xué)?！俺砷L測量”的7種主要方法

圖片來源：Unsplash

1 背景：從“達標”到“達標+成長”

2 什么是“成長”？

3 7種主要的成長測量模型

編輯推薦

不是身高也不是體重，美國學(xué)?！俺砷L測量”的7種主要方法

不是身高也不是體重，美國學(xué)?！俺砷L測量”的7種主要方法

2 什么是“成長”？