教育測量的基本方法
教育測量與教學(xué)評價(jià)是教學(xué)活動(dòng)的重要組成部分,是在教學(xué)領(lǐng)域中進(jìn)行科學(xué)管理的重要手段,合理地開(kāi)展測量評價(jià)活動(dòng)是提高教育質(zhì)量的有效保證.
一、基本概念
1.教育測量
教育測量有廣義和狹義之分.從廣義上說(shuō),教育測量泛指運用測量手段對教育活動(dòng)所進(jìn)行的量的測定。它涉及的范圍很廣,凡是需要并能夠測量的與教育有關(guān)的活動(dòng)均在研究之列,如教育投入、教育過(guò)程各要素、教育的效果等。從狹義上講,教育測量專(zhuān)指按一定規則對學(xué)生的知識、智能、個(gè)性發(fā)展、思想品德等所進(jìn)行的量的測定。通常所提及的多是狹義上的教育測量。
2. 教學(xué)評價(jià)
教育評價(jià)是按照一定標準,運用科學(xué)可行的方法,對教育活動(dòng)所進(jìn)行的價(jià)值判斷的過(guò)程。它包括對教學(xué)過(guò)程和教學(xué)效果的評價(jià),諸如學(xué)校、教師的教學(xué)工作、課堂教學(xué)、教學(xué)方法、模式和內容以及學(xué)生的學(xué)業(yè)成就、一般智能發(fā)展、個(gè)性發(fā)展、思想品德?tīng)顩r等評價(jià)。
3.測驗及其種類(lèi)
測驗是指對通過(guò)一定的儀器和試題所引起的受測者的行為樣本進(jìn)行測量的系統程序。教育測量的對象和內容是非常豐富的,測驗作為教育測量的主要工具,種類(lèi)也很繁多,可按不同標準加以分類(lèi)。
按測驗的功用分類(lèi)(1)學(xué)績(jì)測驗; (2)能力測驗; (3)人格測驗。
按測驗的目的分類(lèi)(1)診斷性測驗;(2)形成性測驗;(3)終結性測驗。
診斷、形成、終結三種測驗對照表
| 種類(lèi) | 目的 | 特點(diǎn) | 時(shí)間 |
| 診斷性測驗 | 預測摸底 | 比較正規 | 教學(xué)開(kāi)始 |
| 形成性測驗 | 矯正改進(jìn) | 靈活 | 教學(xué)進(jìn)程中 |
| 終結性測驗 | 鑒定 | 正規 | 教學(xué)結束 |
按測驗的對象分類(lèi)(1)個(gè)別測驗;(2)團體測驗。
按解釋分數和方法分類(lèi)
(1)常模參照測驗
指參照被測群體的實(shí)際水平解釋分數的測驗叫做常模參照測驗。群體的平均分數一般可以反映群體的水平,稱(chēng)為常模。以常模為參照點(diǎn),將被測個(gè)人的成績(jì)與常模比較,并把比較結果所反映出來(lái)的差異數量化,作為導出分數。參照常模解釋分數,便于比較和選拔工作的進(jìn)行,它屬于相對評價(jià)的范疇。例如,在升學(xué)考試中,按標準化的要求進(jìn)行的分數轉換就是參照常模得出的。
(2)目標參照測驗
參照被測達到目標的程度來(lái)解釋分數的測驗,叫做目標參照測驗,也稱(chēng)作標準參照測驗。通過(guò)與特定的標準進(jìn)行比較,了解被測的達標程度,這是一種絕對評價(jià)方法。例如,畢業(yè)考試就是以某一學(xué)段的教育目標為標準,衡量學(xué)生的達標情況而進(jìn)行的。
常模參照測驗和目標參照測驗的對照表
| 種類(lèi) | 參照系 | 歸屬 | 作用 | 理想分布 |
| 常模參照測驗 | 群體水平 | 相對評價(jià) | 比較選拔 | 全距大, 正態(tài)分布 |
| 目標參照測驗 | 教育目標 | 絕對評價(jià) | 鑒定 | 負偏態(tài) |
4.測量的要素
測量的三要素:
①參照點(diǎn) 參照點(diǎn)分絕對零點(diǎn)和相對零點(diǎn).教育測量所應用的參照點(diǎn)都是相對零點(diǎn)。
②統一的單位
③量具(測量工具) 教育測量常用的工具是試卷,而試卷由測題構成,故我們必須高度重視命題的研究,提高試題的質(zhì)量,這樣才能保證測驗的可靠性和有效性。
二、數據整理
在教育測量中,通過(guò)各種測驗獲得大量分數,這些雜亂無(wú)章的分數有三個(gè)問(wèn)題,一是看不清它們的分布形態(tài),二是不了解它們的特征和變化規律,三是每個(gè)分數表達的意義含混模糊。因此,需要對零亂分散的分數進(jìn)行整理和分析,以便在此基礎上作出解釋和評價(jià)。
1.分數整理
(1)順序排列表
順序排列是簡(jiǎn)單的整理分數的方法。它是將所有個(gè)體的成績(jì),按高低順序排列,并且列于表中,稱(chēng)作順序排列表。這種方法簡(jiǎn)明清晰,一眼便能看到最高分數和最低分數,而且可以大致了解個(gè)體成績(jì)在總體中的位置。
例1 分數整理(用Excel )
(2)頻數分布表
頻數分布表是一種反映數據分布情況的統計表。所謂頻數是指一群數據在各個(gè)數值(或區間)上所出現的數據的個(gè)數,也稱(chēng)為次數。每一個(gè)頻數除以數據的總個(gè)數稱(chēng)為頻率,或稱(chēng)相對次數。
(3)頻數直方圖
由頻數分布表可以制作頻數直方圖。方法是:以分數為橫軸,頻數為縱軸,建立直角坐標系,在橫軸上標出各組分數的組中值,頻數值等距標在縱軸上;然后以組中值為底邊中點(diǎn),組距為底邊,組頻數為高作出各矩形,即得頻數直方圖。
例2(柱形圖)
三、統計數據
1.算術(shù)平均數
一組數值的總和除以數據的總頻數所得的商稱(chēng)為算術(shù)平均數,簡(jiǎn)稱(chēng)平均數。計算公式是: = 。
例3 用Excel求一組數據的平均數。
2.方差
一組數據中,各數離均差的平方和的算術(shù)平均數稱(chēng)為這組數據的方差。又叫均方差或變異數。用符號S2或σ2表示。
3.標準差
方差的算術(shù)平方根稱(chēng)為標準差。用符號S或σ表示。
標準差是反映全體考生分數之間的離散程度和差異情況。它與平均分一起使用,決定了某次考試分數分布情況。σ值越大,表示部分考生離平均分的“差距越大”,也就是分數分布較廣;σ值越小,則分數分布較窄或說(shuō)“集中在平均分附近”。計算公式是:
σ=
用CZ—1206科學(xué)計算器或Excel求平均數和標準差基本操作步驟(略)
例4.用Excel標準差。
4.差異系數
標準差較準確地反映了一組分數的離散程度,它與原數據的單位相同,是一種絕對差異量數。在進(jìn)行不同組間離散程度比較時(shí),適用于單位相同、平均數相近的情況。如果各組數據單位不同,或雖然單位同但平均數相差甚遠時(shí),不能直接用標準差比較,這時(shí)應使用差異系數。
差異系數是一組數據的標準差與平均數的百分比,用CV表示:
CV=
例5 某校中考成績(jì)語(yǔ)文的標準差S1=15,平均分X1=85分(滿(mǎn)分130分),政治標準差S2=10,平均分X2=50(滿(mǎn)分70分),試比較兩科的差異情況。
語(yǔ)文:CV1=
政治:CV2=
因此,政治科分數離散程度大。
5.標準分數(z分數)
標準分數是以平均分為參照點(diǎn),標準差為度量單位的分數。它具有重要理論價(jià)值和應用價(jià)值。按照轉換的方式和對分布形態(tài)的影響效果,可分為兩類(lèi):
①不改變分布形態(tài)的標準分數
定義式為: z =
其中,xi為原始分數,
例6.某生高考數學(xué)成績(jì)105分,所在省的數學(xué)平均分68.40分,標準差28.90分,求他的標準分數。
Z= = 1.266。
該學(xué)生處于優(yōu)秀學(xué)生行列,但如果將他置于全國高考最好的省份,如平均分92.26分,標準差24.10分,則Z=0.529,僅能算中等偏上。
為了與通常記分的習慣協(xié)調一致,對z分數可以再施行線(xiàn)性變換,以消除它的負值和小數: y=Az+B. 當A=10,B=50時(shí),便得到了T分數:T=10z+50。
6.難度
難度是指試卷(題)的難易程度。一般用試卷(題)的得分率或答對率(P)表示,所以難度事實(shí)上是容易度。P值在0~1之間,數值越大,說(shuō)明試卷(題)越容易。
有關(guān)考試難度水平估計一覽表
| | 最 易 | 容 易 | 適 中 題 | 較 難 | 難 | 很 難 |
| 難 度 | 0.95 | 0.85 | 0.70 | 0.50 | 0.30 | 0.10 |
| 章節考試 | 20% | 40% | 30% | 10% | | |
| 高 考 | | 30% | 30% | 20% | 20% | |
| 競 賽 | | | 20% | 30% | 30% | 20% |
計算公式: P= 。
例7.用Excel求難度。
一般情況下,測驗的平均難度接近0.50時(shí),分數趨于正態(tài)分布,否則分數分布將出現偏態(tài)。就整個(gè)測驗而言,當平均難度為0.5且題目組間的相關(guān)為零的情況下,分數呈正態(tài)分布,而難度值越小,則題目越難,低分段人數必然較多。難度值越大,題目越容易,分數將大部分集中在高分區。這樣,在分數的分布上,就會(huì )呈現出兩種不同的偏向,前者為正偏態(tài),后者為負偏態(tài)。
7.區分度
是試題對不同考生的知識、能力水平的鑒別程度。如果一個(gè)題目的測試結果使水平高的考生答對(得高分),而水平低的考生答錯(得低分),它的區分能力就很強。題目的區分度反映了試題這種區分能力的高低。一般認為,區分度的數值達到了0.3,便可以接受;達到了0.3以上為好的題目;在0.4以上為優(yōu)秀題目;低于0.3的題目,區分能力差。
1994~1995年高考數學(xué)試題區分度統計表
| 年份 | | 0.3以下 | 0.3~0.4 | 0.4以上 |
| 1994 | 文科 | 14.7% | 20.7% | 64.4% |
| 1994 | 理科 | 5.3% | 20.7% | 74% |
| 1995 | 文科 | 13.3% | 8.7% | 78% |
| 1995 | 理科 | 16.7% | 37.3% | 46% |
可見(jiàn),題目區分度的實(shí)質(zhì)是用以鑒定一個(gè)題目有效性的指標,它的高低變化對測驗的質(zhì)量具有深刻的影響。與題目的難度相比,人們更關(guān)注題目的區分度的高低,并以此作為篩選和修改試題的主要依據。
試題的區分度的計算比較方便的方法有以下兩種:
(1)得分率求差法
將受測群體按題目得分的高低排列,取高分人數的27%為一組,他們的得分率記作PH;低分人數的27%為另一組,他們的得分率記作PL,用D表示區分度,則該題的區分度為
D=PH—PL。
(2)得分求差法
將受測群體按題目得分的高低排列,取高分人數的27%為一組,低分人數的27%為另一組,用D表示區分度,用H表示高分組得分總和,用L表示低分組得分總和, 用n表示高分組(低分組)人數,XH表示該題的最高得分,XL表示該題的最低得分,則
D=。
例8.用Excel求區分度。
8.信度
信度是衡量測驗分數一致性或可靠性的一個(gè)指標,即用一個(gè)或一組測驗對同一被試群體施測多次,所得結果的一致性的程度,以及測驗分數所反映被試真實(shí)水平(即真分數)的可靠性程度。
(1)分半相關(guān)
將全卷中全部試題按題號或分數適當分半,得到兩個(gè)平行的“子試卷”,計算這兩個(gè)子試卷考生得分的相關(guān)系數,這樣求得的是半個(gè)試卷的信度,然后再用斯皮爾曼—布郎(Spearman—Brown)公式校正,得到考試的分半信度系數。一般認為分半信度系數在0.90以上比較合適。這個(gè)方法比較適合多數為選擇題的試卷。
rtt =
其中,rtt分半信度系數,rab表示A、B兩份試卷得分的積差相關(guān)系數。
例9.用Excel求積差相關(guān)系數。
計算公式rab=
其中,x1i、x2i是第i個(gè)受測者先后兩次測驗所得分數,n是受測人數。
應當注意,在應用上式時(shí),分半的兩部分測驗須滿(mǎn)足在平均數、標準差、分布形態(tài)、測題間相關(guān)、內容、形式和題數都相似的假設條件。
(2)內部一致性信度
通常采用的是克倫巴赫(Cronbach)的α—系數公式,它適用于非選擇題(多重記分)較多的試卷。α—系數為試卷信度的最低限,一般認為其值在0.80以上,考試的信度比較好。
克倫巴赫(Cronbach)公式: rtt =
其中,Sii 2是每個(gè)測試題目得分的方差,St2是整份測驗總分的方差。
國家教委考試中心對高考試題分析與評價(jià)時(shí),即用分半相關(guān)與α—系數方法求出試卷信度。
近3年高考數學(xué)(理科)試卷統計數據對比
| 項目 | 1994年 | 1995年 | 1996年 |
| 平均分 | 83.12 | 88.36 | 82.79 |
| 標準差 | 25.50 | 24.00 | 25.30 |
| 難度 | 0.550 | 0.590 | 0.550 |
| 分半信度 | 0.8339 | 0.8506 | 0.8500 |
| α—信度 | 0.7580 | 0.8867 | 0.8884 |
9.效度
效度是測驗有效性或準確性的指標。由于效度分析可以針對各種要求和運用各種程序,而在特定的條件下,使用不同的分析方法可以得到不同的效度。因此,一個(gè)測驗可以具有不同的效度指標。當我們討論一個(gè)測驗的效度時(shí),只有界定了它的條件,效度才有確切的意義。
對常模參照測驗來(lái)說(shuō),主要有效標關(guān)聯(lián)效度、內容效度和結構效度。
(1)效標關(guān)聯(lián)效度
測驗的效標又可稱(chēng)為準則,它是衡量測驗效度的參照標準。我們可以用一類(lèi)標準化測驗作為某次測驗的效標(如國家級高考、省級各類(lèi)會(huì )考等),用積差相關(guān)法計算效度。
例10 以國家級高考的成績(jì)作為效標,計算某考生進(jìn)入高校后的第一學(xué)期的數學(xué)學(xué)習成績(jì)的效度。
由于客觀(guān)上的種種原因,難以確定有效的效標,因此,效度的計算,采用求平均區分度代替,其公式是:
r效=
其中,r效表示試卷的效度,k表示試卷中的試題數,Di表示每道試題的區分度。
(2)內容效度
測驗的題目對所要測量的內容具有代表性的程度稱(chēng)作內容效度。它反映測驗題目在所要測量的內容范圍和教學(xué)目標內取樣是否充分和確切的問(wèn)題,主要用于學(xué)科成績(jì)測驗。內容效度一般不用數量化指標來(lái)表示,主要依靠在某種依據的基礎上作出邏輯分析。為了提高測驗的內容效度,首先要注意界定測驗的內容范圍,其次要注意系統取樣。目前,大多數學(xué)科成績(jì)測驗的編制者根據教學(xué)目標的分類(lèi),先擬就測驗的藍圖,將各部分內容和教學(xué)目標各層次按確定的比重表達出來(lái),然后編制測題,以滿(mǎn)足提高內容效度的要求。
(3)結構效度(構造效度)
結構效度是指考試對理論上構造或特質(zhì)的測量程度。
例11 測量“推理能力”考試。
確定結構效度需三個(gè)步驟:建立理論體系(理論結構)并以此出發(fā)提出關(guān)于某一心理特征的假設;設計和編制測驗,并進(jìn)行實(shí)施;用收集證據和邏輯分析的方法來(lái)驗證與理論假設的相符程度。
由于建立理論和提出假設的困難,操作步驟較為復雜,且沒(méi)有單一的量化指標來(lái)描述有效程度,所以,在一般的考試質(zhì)量分析中很少采用。