圖片來源:攝圖網(wǎng)
摘要:在新高考綜合改革中,高中學(xué)業(yè)水平考試選考成績作為高考成績的組成部分。高考選考科目由于考生能力和題目難易度不同,原始分無法進(jìn)行比較。如果各科使用標(biāo)準(zhǔn)分或者比例等級計分,雖然解決了題目難易度不同的問題,但因考生能力不同導(dǎo)致的計分不公問題會更加突出。為解決上述問題,提出了計分定級方式,在強假設(shè)和弱假設(shè)下分別得到選考科目的統(tǒng)計校準(zhǔn)分?jǐn)?shù),然后讓學(xué)科專家小組在此基礎(chǔ)上設(shè)定專家校準(zhǔn)值。根據(jù)選考科目在必考科目有成績之前還是之后定級,分別給出等級賦分方法,從而解決考生選科時“避難選易”和“避強鄰弱”的問題。
關(guān)鍵詞:高考;高考改革;高中學(xué)業(yè)水平考試;學(xué)業(yè)水平標(biāo)準(zhǔn);校準(zhǔn)分
2017年新高考改革率先在上海市和浙江省實施,亮點之一是文理不分科“3+3”考試科目設(shè)置:統(tǒng)考科目3門(語文、數(shù)學(xué)、外語),選考科目3門(上海市6選3,浙江省7選3)。在計分方式上,統(tǒng)考科目使用原始分,每科滿分150分。選考科目則先按預(yù)設(shè)比例劃分等級,然后對等級賦分(以下簡稱“比例等級制”),上海市將選考科目分為11個等級(10個級差),等級賦分后級差為3分,最低40分,最高70分;浙江省將選考科目分為21個等級(20個級差),等級賦分后級差3分,最低40分,最高100分??荚嚳颇吭O(shè)計屬于政策范疇,但計分方式屬于技術(shù)范疇,技術(shù)與政策應(yīng)當(dāng)兼容。本文將先分析比例等級制存在的問題,然后提出選考科目(以下簡稱“X科”)合適的計分方式。
1 比例等級制存在的問題
比例等級制的做法是預(yù)設(shè)比例按考生排位劃分等級并賦分。以上海市為例,11個等級從高到低的比例依次為:最高等級A+占5%,中間9個等級各占10%,最低等級E占5%(見表1)。由于相同成績考生的等級需要相同,而最低等級的劃分還有其他規(guī)定條件,實踐中上述百分比只是一個約數(shù)。這就意味著一個考生在選考科目上的最后得分,與該科題目難易度沒有關(guān)系,取決于在該科成績的排位。例如,假設(shè)張三在物理科的排位是前10%(對應(yīng)的百分等級為90,即有 90%考生物理成績或者表現(xiàn)在他之下),則他的物理等級是A,賦分后為67分。
但是,各科都相同的預(yù)設(shè)等級比例上存在問題。例如,一個物理考生與一個生物考生,只要在選考科目上的成績百分等級相同,從理論上說二者最后的賦分應(yīng)該相同。在該方面,選考科目的比例等級制賦分與選考科目直接使用標(biāo)準(zhǔn)分(1999—2006年廣東省實行“3+X”的做法)的本質(zhì)上相同,都是成績(按百分等級)排位相同最后得分就相同。
在未實行選考科目時,物理考生與生物考生為同一批人,實行比例等級制合理,或者,如果物理考生與生物考生兩個考生群體的整體能力分布相同或者相近,比例等級制也合理。從物理和生物兩科的招生專業(yè)來說,重點大學(xué)招收物理考生的專業(yè)遠(yuǎn)遠(yuǎn)多于招收生物考生。例如,2004年北京大學(xué)在廣東省(當(dāng)時有X科)招收50名學(xué)生,其中48個專業(yè)都可以招物理考生,但招生物考生的一個專業(yè)都沒有。清華大學(xué)在廣東省招收60名,全部專業(yè)都可以招物理考生,但同樣沒有招生物考生的專業(yè)。這就使能力較高的理科考生選考物理科遠(yuǎn)遠(yuǎn)多于選考生物科。重點中學(xué)選考物理的考生人數(shù)往往是選考生物的幾倍,結(jié)果是物理考生群體能力較強。
采用比例等級制或用傳統(tǒng)方法直接計算標(biāo)準(zhǔn)分,物理考生群體受影響較大,廣東省實行“3+X”已有過教訓(xùn)。雖然人們不一定了解背后的原理,但經(jīng)過多年的實踐,教師和考生都感覺物理考生受影響較大,因而普通中學(xué)的考生選考物理科的人數(shù)越來越少,形成惡性循環(huán),相應(yīng)地重點中學(xué)的物理考生也受影響。以廣東省為例,實行“3+X”時,雖然考生總數(shù)逐年上升,但選考物理的考生比例逐年銳減,如2003—2005年,考生總?cè)藬?shù)從30萬上升到45萬,但選擇物理科的考生卻從14萬左右降到不足8萬,許多本來喜歡物理的考生放棄物理去選考并不喜歡的其他科目。
2 選考科目合適的計分方式
溫忠麟和羅冠中研究了國內(nèi)外高考考試與計分方式,提出高考計分方式應(yīng)當(dāng)與科目設(shè)置相適應(yīng),見表2。
在新的高考改革方案中,既有統(tǒng)考科目,又有選考科目,還需要將它們合成總分,因此,合適的計分方式是統(tǒng)考科目用標(biāo)準(zhǔn)分,選考科目用校準(zhǔn)分?jǐn)?shù),即要用適當(dāng)?shù)姆绞接嬎銟?biāo)準(zhǔn)分或者等級比例。
統(tǒng)考科目使用原始分的弊端在20世紀(jì)80年代引入標(biāo)準(zhǔn)分前后直到現(xiàn)在還存在爭議。存在兩個方面的不足:一是不同科目的原始分沒有可比性,無法直接相加;二是直接相加的結(jié)果與政策設(shè)定的權(quán)重可能出入很大。
選考科目不校準(zhǔn)分?jǐn)?shù)會導(dǎo)致部分考生選科時出現(xiàn)“避難選易”和“避強鄰弱”的問題。比例等級制消除了科目之間考試難度不同的問題,讓考生不再“避難選易”,但卻突出了“避強鄰弱”的問題,所以,有必要校準(zhǔn)選考科目分?jǐn)?shù)。
3 分?jǐn)?shù)校準(zhǔn)方法
分?jǐn)?shù)校準(zhǔn)分為專家校準(zhǔn)法和統(tǒng)計校準(zhǔn)法兩類,下面先分別介紹兩類校準(zhǔn),然后提出綜合二者的計分方式。
3.1 選考科目分?jǐn)?shù)基于學(xué)業(yè)水平標(biāo)準(zhǔn)的專家校準(zhǔn)
專家校準(zhǔn)需要學(xué)業(yè)標(biāo)準(zhǔn)。已有多位研究者討論了學(xué)業(yè)水平的設(shè)定,其中文獻(xiàn)有具體的介紹。學(xué)業(yè)標(biāo)準(zhǔn)設(shè)定主要是內(nèi)容標(biāo)準(zhǔn)和表現(xiàn)標(biāo)準(zhǔn)的設(shè)定。課程標(biāo)準(zhǔn)和考試大綱是內(nèi)容標(biāo)準(zhǔn)的主要組成部分,還需要一套基于課程標(biāo)準(zhǔn)和考試大綱研制的標(biāo)桿試卷(樣本試卷)。
表現(xiàn)標(biāo)準(zhǔn)則是一套等級描述,用文字描述達(dá)到不同等級的考生的典型表現(xiàn)。例如,香港中學(xué)文憑考試各科成績分成5個等級,最高是5(其中,最好的10%考生記為 5**,次好的30%記為 5*),最低的是1(不到1的記為U,表示不入等級),有5個等級描述。例如,表3是選考科目物理等級3和等級4的描述。
等級描述以5~7個為宜,如果太多,很難找到合適的形容詞去描述。實際定級需要更多等級的話(如上海市的11個等級或浙江省的21個等級),對每個有描述的等級再細(xì)分2~3個等級即可。
考試閱卷后,專家根據(jù)考生的表現(xiàn)對照學(xué)業(yè)水平標(biāo)準(zhǔn)劃出等級的切分點,由于各科的切分點可能不同,相當(dāng)于對分?jǐn)?shù)做了校準(zhǔn)。如果各科設(shè)定的標(biāo)準(zhǔn)大致相同,各科專家的判斷也很準(zhǔn)確的話,那么專家校準(zhǔn)可以同時解決考生選科時“避難選易”和“避強鄰弱”的問題。
然而,單純的專家校準(zhǔn)也存在不足,因為不同科目的專家根據(jù)學(xué)業(yè)水平標(biāo)準(zhǔn)給出等級切分點時,會受到兩方面的影響:一方面,專家在將學(xué)生實際表現(xiàn)與學(xué)業(yè)標(biāo)準(zhǔn)比較時,會受到對標(biāo)準(zhǔn)寬嚴(yán)把握是否適度的影響(不同的專家小組校準(zhǔn)結(jié)果會不同,甚至同一個專家小組在不同的時間去校準(zhǔn)也會有波動);另一方面,專家比較的是同科考生的學(xué)業(yè)表現(xiàn),這會受到所謂“大塘小魚效應(yīng)”的影響。
3.2 選考科目分?jǐn)?shù)基于強弱假設(shè)的統(tǒng)計校準(zhǔn)
溫忠麟和羅冠中討論過多種考試分?jǐn)?shù)的統(tǒng)計校準(zhǔn)方法,但未完全明確統(tǒng)計校準(zhǔn)的假設(shè)及其理論依據(jù),本文將給出選考科目統(tǒng)計校準(zhǔn)的強假設(shè)和弱假設(shè)。
3.2.1 選考科目統(tǒng)計校準(zhǔn)的強假設(shè)
選考科目統(tǒng)計校準(zhǔn)的強假設(shè)是:一個大規(guī)模的考生群體(如超過1萬人),選考科目的能力分布與3門統(tǒng)考科目(作為整體)的能力分布相同。例如,物理考生群體的能力分布與3門統(tǒng)考科目(作為整體)的能力分布相同,生物考生群體的能力分布與3門統(tǒng)考科目(作為整體)的能力分布相同。
強假設(shè)的依據(jù)是加德納多元智能理論,20世紀(jì)80年代哈佛大學(xué)認(rèn)知心理學(xué)家加德納所提出的多元智能理論對教育測評產(chǎn)生了較大影響。該理論認(rèn)為每個人都擁有8種主要能力:言語—語言、邏輯推理、空間想象(抽象—形象)、身體運動、音樂韻律、人際關(guān)系、自我反省、親近自然。不同的學(xué)科需要解決的問題不同,但都離不開這些能力。顯然,語文、數(shù)學(xué)和外語考查的主要是言語—語言、邏輯推理、空間想象(抽象)。如果說音樂考試主要考查音樂韻律、體育考試主要考查身體運動、美術(shù)考試主要考查空間想象(形象),那么物理、化學(xué)、生物、政治、歷史和地理等科目考查的仍然是以言語—語言、邏輯推理、空間想象(抽象)為主。因此,除了音樂、體育、美術(shù)以外,可以假設(shè)考生選考科目的能力分布與3門統(tǒng)考科目(作為整體)的能力分布相同。
依據(jù)強假設(shè),可以將選考科目的分?jǐn)?shù)分布校準(zhǔn)到與統(tǒng)考科目(也稱為基礎(chǔ)科目,以便討論沒有選考科目的情形)的分?jǐn)?shù)分布一樣。具體計算方法如下:
第一步:求出考生的語文、數(shù)學(xué)、外語以及X科的正態(tài)化Z分。
第二步:計算考生語文、數(shù)學(xué)和外語以及X科的標(biāo)準(zhǔn)分(平均分500,標(biāo)準(zhǔn)差100),分別記為T(語文)、T(數(shù)學(xué))、T(外語)以及T(X科)。
第三步:合并考生的統(tǒng)考科目分?jǐn)?shù),稱為基礎(chǔ)分:T(基礎(chǔ))=W1×T(語文)+W2×T(數(shù)學(xué))+W3×T(外語)(1)
并將T(基礎(chǔ))重新標(biāo)準(zhǔn)化為均值500、標(biāo)準(zhǔn)差100的標(biāo)準(zhǔn)分,其中W1、W2、W3是權(quán)重,不同的X科可以不同,最合理的是用T(X科)對T(語文)、T(數(shù)學(xué))和T(外語)的標(biāo)準(zhǔn)化回歸系數(shù)進(jìn)行加權(quán),此時,T(X科)與T(語文)、T(數(shù)學(xué))和T(外語)的多重相關(guān)系數(shù)R就等于T(X科)與T(基礎(chǔ))的皮爾遜相關(guān)系數(shù)。
第四步:計算X科考生群體的基礎(chǔ)分T(基礎(chǔ))均值和標(biāo)準(zhǔn)差,分別記為MX科考生(基礎(chǔ))和SX科考生(基礎(chǔ))。
第五步:將X科標(biāo)準(zhǔn)分校準(zhǔn)到以MX科考生(基礎(chǔ))為平均分,以SX科考生(基礎(chǔ))為標(biāo)準(zhǔn)差的分布。假設(shè)一個考生在X科的Z分?jǐn)?shù)為Z(X科),其校準(zhǔn)后的標(biāo)準(zhǔn)分記為T*(X科),計算公式如下:T*(X科)=MX科考生(基礎(chǔ))+SX科考生(基礎(chǔ))×Z(X科)(2)
對于全體考生來說,T(基礎(chǔ))的均值是500、標(biāo)準(zhǔn)差是100。如果物理考生T(基礎(chǔ))的均值是540、標(biāo)準(zhǔn)差是80,說明物理考生的整體能力較強、分散程度較窄,其物理成績校準(zhǔn)后也是均值540、標(biāo)準(zhǔn)差80。
但是或許有人會質(zhì)疑,既然如此,為什么不只考語文、數(shù)學(xué)和外語?其實是混淆了個體能力(或?qū)iL)與考生群體整體能力的區(qū)別,下面討論弱假設(shè)時將作進(jìn)一步的解釋。
此外,還有人會質(zhì)疑,基礎(chǔ)科目包含兩文(語文、外語)卻只有一理(數(shù)學(xué)),對理科好的考生不公平。事實上該問題已經(jīng)由合成基礎(chǔ)分的權(quán)重解決。例如,物理與數(shù)學(xué)相關(guān)較高,數(shù)學(xué)的權(quán)重就會比較大。
3.2.2 選考科目統(tǒng)計校準(zhǔn)的弱假設(shè)
選考科目統(tǒng)計校準(zhǔn)的弱假設(shè)是:同一個考生群體,各科成績之間呈現(xiàn)正相關(guān)。尤其是在沒有選考科目的情況下,理科中的物理、化學(xué)、生物(或文科中的政治、歷史、地理)中的任何一科成績都與語文、數(shù)學(xué)、外語呈現(xiàn)正相關(guān),因而將來的X科成績與3科統(tǒng)考科目合成的基礎(chǔ)分有正向的多重相關(guān)系數(shù)。
上述的強假設(shè)是理論上的,難以驗證,但弱假設(shè)可以驗證。因為之前絕大多數(shù)省份的高考都沒有選考科目,因而同一批考生在所有科目上都有成績(分為文科和理科),這為驗證弱假設(shè)提供了可能。表4和表5是某省2013—2017年科目間成績的相關(guān)系數(shù),從中可以看出,對任一科目(如物理),與3科基礎(chǔ)科的相關(guān)系數(shù)在不同年份之間比較穩(wěn)定,多重相關(guān)系數(shù)也相當(dāng)穩(wěn)定。
基于上面的弱假設(shè),可以用基礎(chǔ)分來預(yù)測X科成績。這種預(yù)測對于單個考生來說可能不準(zhǔn),但對于考生群體均值的預(yù)測而言,比較準(zhǔn)確。就像考查高中畢業(yè)時男生身高與體重的關(guān)系,可以用身高來預(yù)測體重,對于某個1.7米的男生,其預(yù)測的體重與實際體重可能出入很大,誤差可能相差多達(dá)10千克。但對于平均值為1.7米的男生全體,預(yù)測他們的平均體重,會相當(dāng)準(zhǔn)確,如果要預(yù)測的男生群體有1萬人,那么誤差會減少到10千克除以1萬的平方根(即100)的數(shù)量級(大約是0.1千克)。
依據(jù)弱假設(shè),可以將選考科目的平均分進(jìn)行校準(zhǔn),做法是將X科標(biāo)準(zhǔn)分均值校準(zhǔn)到:M*X科考生(基礎(chǔ))=500+R(MX科考生(基礎(chǔ))-500)(3)
就是說,以500為基準(zhǔn),T(基礎(chǔ))均值每變化1分,校準(zhǔn)后將會變化R分。如果物理考生T(基礎(chǔ))的均值是540,物理成績與基礎(chǔ)分的相關(guān)系數(shù)(就是物理與3科統(tǒng)考科目的多重相關(guān)系數(shù))R是0.8,則物理成績校準(zhǔn)后的均值為500+0.8(540-500)=532。
因此,基于弱假設(shè)對X科的獎勵或者懲罰,比基于強假設(shè)的要輕。如果R=1,就是上面強假設(shè)下的校準(zhǔn),如果R=0,則相當(dāng)于不作校準(zhǔn)。
標(biāo)準(zhǔn)差如何校準(zhǔn)呢?同樣面對兩個標(biāo)準(zhǔn)差,一個是默認(rèn)的100,另一個是SX科考生(基礎(chǔ)),較好的做法是將標(biāo)準(zhǔn)差校準(zhǔn)到:
即對X科考生的基礎(chǔ)分方差和默認(rèn)方差和做了一個加權(quán)平均,然后開方作為校準(zhǔn)的標(biāo)準(zhǔn)差。
因此,基于弱假設(shè)校準(zhǔn)選考科目分?jǐn)?shù),前面4個步驟與基于強假設(shè)的做法一樣,但不同的是第五步:將X科標(biāo)準(zhǔn)分校準(zhǔn)到以M*X科考生(基礎(chǔ))為平均分、以S*X科考生(基礎(chǔ))為標(biāo)準(zhǔn)差的分布。假設(shè)一個考生在X科的Z分?jǐn)?shù)為Z(X科),其校準(zhǔn)后的標(biāo)準(zhǔn)分記為T*(X科),計算公式如下:T*(X科)=M*X科考生(基礎(chǔ))+S*X科考生(基礎(chǔ))×Z(X科)(5)
3.3 選考科目基于統(tǒng)計校準(zhǔn)的專家校準(zhǔn)
選考科目分?jǐn)?shù)使用單純的專家校準(zhǔn)存在問題,但是,單純的統(tǒng)計校準(zhǔn)也可能難以讓人放心。比較可行的做法是以統(tǒng)計校準(zhǔn)為指導(dǎo),讓學(xué)科專家小組在一定范圍內(nèi)作出專家判斷,在統(tǒng)計校準(zhǔn)結(jié)果基礎(chǔ)上設(shè)定專家校準(zhǔn)值。學(xué)科專家小組成員應(yīng)當(dāng)包括命題負(fù)責(zé)人、評卷負(fù)責(zé)人,參與制定評卷標(biāo)準(zhǔn),選擇各個級別有代表性的答卷樣本。
3.3.1 選考科目的標(biāo)準(zhǔn)分校準(zhǔn)與定級
無論選考科目使用分?jǐn)?shù)還是等級,首先都應(yīng)當(dāng)校準(zhǔn)標(biāo)準(zhǔn)分,大致步驟如下:
第一步:各科制定等級標(biāo)準(zhǔn),寫出等級描述。
第二步:標(biāo)準(zhǔn)設(shè)定的第一年,讓各學(xué)科專家小組根據(jù)等級描述、強弱假設(shè)統(tǒng)計校準(zhǔn)后的等級代表試卷等資料,在強弱假設(shè)的統(tǒng)計校準(zhǔn)結(jié)果之間設(shè)定一個校準(zhǔn)值。具體來說,公式(3)和(4)中的R,可以在計算得到的R和1之間重新設(shè)定一個數(shù)值(有充分理據(jù)時也可以比計算的R值小)。這個設(shè)定的數(shù)值與計算的R之間的差異稱為專家校準(zhǔn)值。標(biāo)準(zhǔn)設(shè)定的第二年,允許專家小組檢視和修正所設(shè)的專家校準(zhǔn)值。
第三步:從第二年開始維持專家校準(zhǔn)值(必要時專家小組可以微調(diào),但需要理據(jù)),在計算得到的R基礎(chǔ)上加上專家校準(zhǔn)值作為公式(3)和(4)中的R。
第四步:每年由跨學(xué)科的考試委員會批準(zhǔn)校準(zhǔn)結(jié)果。
第五步:根據(jù)比例等級制下標(biāo)準(zhǔn)分與等級的對應(yīng)關(guān)系進(jìn)行定級和賦分。
專家小組作出判斷前需參考有關(guān)的資料和統(tǒng)計數(shù)據(jù),包括:1)評分員對試卷難易度的反饋信息;2)當(dāng)年和往年的有關(guān)統(tǒng)計數(shù)據(jù)(如平均分、標(biāo)準(zhǔn)差、累積分布表等);3)等級切分點附近的答卷樣本;4)各個級別有代表性的答卷樣本。
3.3.2 已有等級的選考科目的賦分校準(zhǔn)
如果選考科目在語文、數(shù)學(xué)、外語成績之后才定級,那么根據(jù)上面 3.3.1 節(jié)的步驟便可定級并賦分。如果選考科目在語文、數(shù)學(xué)、外語成績之前已經(jīng)定級,那么校準(zhǔn)時不需要改變原有定級,但要改變級別賦分值,步驟如下:
第一步:利用比例等級制,可以得到X 科每個等級切分點的Z分?jǐn)?shù)。
第二步:由公式(5)可以得到這些Z分?jǐn)?shù)校準(zhǔn)后的標(biāo)準(zhǔn)分。
第三步:用比例等級制標(biāo)準(zhǔn)分與等級的對應(yīng)關(guān)系便可計算每個等級切分點校準(zhǔn)后的級別和賦分。
第四步:按均勻插值的方法,對現(xiàn)有的X科等級進(jìn)行賦分。
3.3.3 按組別能力指數(shù)校準(zhǔn)
組別能力指數(shù)的校準(zhǔn)方法見文獻(xiàn)。新高考改革中,如果使用比例等級制(見表1)將每個考生的統(tǒng)考科目定級,就可以計算出X科考生的組別能力指數(shù),從而知道X科每個等級的比例,為X科每個考生定級并賦分。香港中學(xué)文憑考試對于組別能力指數(shù),也有專家校準(zhǔn)的環(huán)節(jié)。
4結(jié)語
從某種意義上說,比例等級制是標(biāo)準(zhǔn)分的簡化版(但比例等級制的分布與各級比例的設(shè)定有關(guān)),都屬于常模參照計分方式。但不同選考科目的常模不同,使得分?jǐn)?shù)沒有可比性。
按照新高考改革方案,不僅有選考科目,而且采用等級報告成績。作為配套措施,選考科目必須使用適當(dāng)方式進(jìn)行計分定級。本文為新的高考科目設(shè)計方案制定一種計分方式,可以同時解決不同選考科目之間題目難易度不同、考生能力不同導(dǎo)致的問題。類似的計分定級方式已經(jīng)在香港中學(xué)文憑考試(相當(dāng)于香港地區(qū)的高考)實施多年,實踐證明,在這種計分定級方式下,不會系統(tǒng)地出現(xiàn)考生選考時“避難選易”和“避強鄰弱”的問題。
雖然本文提出的計分定級方式,從計算的角度來說相對簡單和直接,也不難解釋,但仍然需要針對具體的高考政策和方案,研究實施細(xì)節(jié),制訂流程,寫出計算機程序。值得一提的是,要注意處理異常現(xiàn)象和極端情形(如缺考和零分如何處理等)。此外,還需要通過不同的途徑,向教育主管領(lǐng)導(dǎo)、教育測評工作者和廣大教師、考生及其家長,詳細(xì)地解釋選考科目進(jìn)行分?jǐn)?shù)校準(zhǔn)的必要性和用來校準(zhǔn)的計分方式的合理性。
本文轉(zhuǎn)自微信公眾號“中國考試”,作者溫忠麟,制作張瀛天。文章為作者獨立觀點,不代表芥末堆立場。
2、芥末堆不接受通過公關(guān)費、車馬費等任何形式發(fā)布失實文章,只呈現(xiàn)有價值的內(nèi)容給讀者;
3、如果你也從事教育,并希望被芥末堆報道,請您 填寫信息告訴我們。