信度和效度是優(yōu)良的測量工具所必具備的條件,如果對測量工具的信度和效度一無(wú)所知,則無(wú)法判斷其獲得的資料的可信性與有效程度。“工欲善其事,必先利其器”,在教育測量中要認真檢查所使用的測量工具,考驗其信度、效度以及難度和區分度,才能期望獲得可靠與正確的資料。
一、教育測量的要素
(一) 單位
(二) 參照點(diǎn)
(三) 量表
二、教育測量的種類(lèi)
以測量的對象來(lái)分類(lèi),教育測量有
(一) 學(xué)業(yè)成績(jì)測驗
(二) 智力測驗
(三) 人格測驗
(四) 特殊能力測驗
以測量的目的來(lái)分類(lèi),教育測量有
(一) 安置測驗
(二) 形成性測驗
(三) 總結性測驗
(四) 診斷性測驗
(五) 難度測驗
(六) 速度測驗
以測量的方式來(lái)分類(lèi),教育測量有
(一) 個(gè)人測驗
(二) 團體測驗
以試題的形式來(lái)分類(lèi),教育測量有
(一) 客觀(guān)性測驗
(二) 論文式測驗
(三) 投射測驗
(四) 情景測驗
三、教育測量的功能
(一) 教育測量是改進(jìn)教學(xué)的良好工具
(二) 教育測量是教育管理的重要手段
(三) 教育測量是教育研究的重要方法
四、測量的評價(jià)
良好的測驗應符合以下要求:
1、 試題的類(lèi)型應與測量的目的相適應。
2、 試題應具有代表性
3、 試題應有適當的難度和區分度
4、 試題的表述要明晰、準確,不會(huì )引起被試者對試題的誤解
5、 測驗的結果要具有可靠性和有效性
6、 測驗要宜于實(shí)施,易于評分,便于統計檢驗,在人力、物力和時(shí)間方面,符合經(jīng)濟性原則。
測驗的質(zhì)量評定
一、預備性知識:
1、標準差及其意義
計算公式是:
s=sqr(∑(x-X)2/N)
意義:標準差越大,表明數據的離散程度越大,即數據越參差不齊,分布范圍越廣;標準差越小,表明這組數據的;離散程度越小,即數據越集中,分布范圍越小。問(wèn)題:在教育研究中,標準差越大越好,還是越小越好?看情況、問(wèn)題而定。成績(jì)的標準差越大,就教學(xué)活動(dòng)而言,難度越大;對選拔性測驗而言,則表明測驗質(zhì)量很差。
例:計算原始數據83,87,86,81,88的標準差。
結果:s=sqr6.80=2.61
當兩種單位不同或單位相同但平均數差異很大的資料,如何比較資料的差異?
相對差異系數CV!
計算公式:
CV=s/X*100%
CV就是以平均數為單位,以標準差占平均數的百分比的大小來(lái)衡量差異的程度.差異系數越大,表明離散程度越大;差異系數越小,表明離散程度越小.
例:比較1999年蘭州市安寧區6歲男童體重與身高的離散程度.
平均數
標準差
體重
19.39kg
2.16kg
身高
115.87cm
4.86cm
體重CV=2.16/19.39*100%=11.14%
身高CV=4.86/115.87*100%=4.19%
根據經(jīng)驗, CV值一般在5%-35%之間。如果CV大于35%時(shí),可懷疑平均數是否失去了意義;如果CV小于5%,可懷疑平均數與標準差的計算有誤。
2、相關(guān)系數:
積差相關(guān)系數
r=∑(x-X)(y-Y)/nsxsy
其中,x(y)表示x(y)變量觀(guān)測值,X表示x(y)變量觀(guān)測值的算術(shù)平均數。sx和sy分別等于x變量和y變量的標準差。
例:計算并比較10個(gè)學(xué)生的語(yǔ)文、數學(xué)、化學(xué)成績(jì)之間的相關(guān)系數。
序號
1
2
3
4
5
6
7
8
9
10
語(yǔ)文
74
71
72
68
76
73
67
70
65
74
化學(xué)
76
75
71
70
76
79
65
77
62
72
數學(xué)
62
58
79
80
64
77
50
69
55
56
計算可得語(yǔ)文標準差為3.317,平均數為71;化學(xué)標準差為5.178,平均數為72.3,語(yǔ)文和化學(xué)的相關(guān)系數r=.780
等級相關(guān)
斯皮爾曼等級相關(guān):計算公式:rR=1-6∑D2/N(N2-1)
例:10名高中生學(xué)習潛在能力測驗與自學(xué)能力測驗成績(jì)的相關(guān)程度如何?
序號
1
2
3
4
5
6
7
8
9
10
學(xué)能
1
2
3
5
5
5
7
8
9
10
自能
2
1
3
5
7
4
8
6
10
9
計算得rR=.891
肯德?tīng)柡椭C系數rw=SSR/1/12k2(n3-n)
(k表示評定者的人數或同一評定者對同一組被評事物先后評定次數;n表示被評定事物的個(gè)數;R表示k個(gè)評定者對同一被評事物所給予的等級之和;SSR表示R的離差平方和,即SSR=∑R2-(∑R)2/n)
例:4位教師對6個(gè)學(xué)生的作文競賽的名次排列如下,問(wèn)評定的一致性如何?
學(xué)生
n=6
評定者 k=4
R
R2
1
2
3
4
1
3
4
2
1
10
102
2
4
3
1
3
11
112
3
2
1
3
4
10
102
4
6
5
6
5
22
222
5
1
2
4
2
9
92
6
5
6
5
6
22
222
總和
84
1370
SSR=194
Rw=.693
點(diǎn)二列相關(guān)
計算公式:rpb=(Xp-Xq)/S*sqr(pq)
例:18個(gè)5歲男女幼兒擲砂袋(150克)成績(jì)如下表,問(wèn)性別與投擲成績(jì)相關(guān)情況如何?
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
成績(jì)
4.0
3.6
3.5
3.2
4.4
4.8
3.8
5.2
4.7
3.4
4.9
3.7
3.3
4.7
4.8
3.1
2.9
3.4
性別
1
0
0
0
1
1
0
1
1
0
1
0
0
1
1
0
0
0
rpb=.910
二、信度(reliability)
(一) 意義:測驗的可靠性或可靠的程度
一個(gè)人站在測量體重的磅秤上,前后幾次稱(chēng)出幾個(gè)明顯不同的重量,那么磅秤本身必定有問(wèn)題,說(shuō)明這架磅秤是不可靠的。在教育調查中,我們常采用問(wèn)卷作為測量工具,如果我們所采用的問(wèn)卷中的問(wèn)題,原來(lái)打算測量某一概念,但由于設計不周密,問(wèn)題或答案的范疇摸棱兩可或有多種解釋?zhuān)灾卤粏?wèn)者不能確定如何回答,從而使回答達不到一致性的要求,這就降低了測量的可靠性程度,那么它的信度就會(huì )成問(wèn)題。
1.信度指實(shí)測值和真值相差的程度 X=T+E 絕對誤差:E=X-T 相對誤差=E/T*100%
2.信度是指一種測驗對相同被試再次測驗時(shí)引起同樣反映的程度
(二)信度系數的計算
常用的信度系數有穩定性系數(coefficient of stability)、等值性系數(coefficient of equivalence)、內部一致性系數(coefficient of internal constancy)等。
使用穩定性系數時(shí)要注意的問(wèn)題:(1)兩次測驗的時(shí)間間隔要適宜;(2)重測法適用于速度測驗而不適用于難度測驗。(3)要注意提高被試的積極性。
使用等值性系數時(shí)要注意的問(wèn)題:(1)復份法的關(guān)鍵是兩個(gè)量表必須等值。(2)兩次測驗的時(shí)間間隔要盡可能短。(3)如果兩次測驗緊接,應注意被試厭倦態(tài)度。(4)標準化測驗一般有復份,若沒(méi)有說(shuō)明等值信度,或等值性系數較低,則使用復本時(shí)應慎重。
計算內部一致性系數的方法:(1)分半法(Split-half method)(2)Cronbach系數
(三)提高測驗信度的方法(1)延長(cháng)測驗長(cháng)度——新增加的題目與原有測驗題目應有相同的統計性質(zhì),同時(shí),不影響被試回答問(wèn)題的方法。(2)難度要適當:r=1-SE2/SX2
經(jīng)驗表明,難度在.40-.70之間是合適的,也有人認為.25-075都有利于提高測驗信度。(3)測驗的內容應盡量同質(zhì);(4)測量時(shí)間要充分;(5)測量的程序應統一;(6)評分要客觀(guān)。(7)加大應試者之間的差異
三、效度
所謂效度就是測驗分數的正確性,意即“有多正確的程度”。在選擇測量工具和設計問(wèn)卷時(shí),首先要考慮其效度。也就是說(shuō),要考慮“測量出來(lái)的東西是否真是研究者想要得到的東西”、“所測的結果是否能正確、有效的說(shuō)明所要研究的現象”。
鑒別效度,必須確定測量的目的與范圍,考慮所要測量的內容是什么,分析其性質(zhì)和表現特征,進(jìn)而核查測量的內容是否與測量的目的相符合,以此判斷測量結果反映所要測量特征的程度。
假設某種測量的目的是衡量個(gè)體在某項屬性(如工資收入)上的差異情況,則一群被調查者在該測量中得分的總變異量包括三個(gè)部分:一為個(gè)體在與該屬性有關(guān)的共同屬性上所造成的變異量,一為與該屬性無(wú)關(guān)的其他個(gè)別特征(如獎金、補貼、親友贈款等)所造成的變異量,其余為隨機誤差變異量。由此可以看出,效度就是在測量得分的總變異中,由所要測量的特質(zhì)所造成的變異量所占的百分比。