單元一
古典測驗理論簡(jiǎn)介
2006/9/15
1
古典測驗理論
余民寧 教授
摘自「教育測驗與評量:成就測驗與教學(xué)評量」一書(shū)(2002,臺北,心理)
雖然根據歷史學(xué)家(DuBois, 1970)的描述,早在西元一千多年前科舉時(shí)代的中國,即
有能力測驗(即科舉考試制度)的雛型產(chǎn)生。但是,對「測驗」這門(mén)學(xué)問(wèn)進(jìn)行科學(xué)化的量化
研究者,卻始於歐美各國,西風(fēng)東漸之後,才又傳入中國。
西元1905 年,Binet-Simon 在法國所發(fā)展的智力測驗,可以說(shuō)是人類(lèi)第一個(gè)客觀(guān)的心理
測驗,也是測驗理論的真正濫觴。至此,這門(mén)專(zhuān)研心理測驗與評量(psychological testing and
assessment),內含:量化心理學(xué)(quantitative psychology)、個(gè)別差異(individual differences)、
和心理測驗理論(mental test theory)等研究範圍的科學(xué),即稱(chēng)為「心理計量學(xué)」(psychometrics)
(或又譯成:「心理測驗學(xué)」),正式確立。心理計量學(xué)的誕生,乃心理學(xué)者企圖將心理學(xué)發(fā)展
成為一門(mén)「量化的理性科學(xué)」(quantitative rational science)的結果,到目前為止,它雖然已
邁入不同的新紀元,但成長(cháng)與茁壯的腳步,卻未曾停止過(guò)。
談到測驗理論的發(fā)展,很多人喜歡以某某學(xué)派來(lái)作為區分,雖然這種分法不見(jiàn)得正確,
但為了討論方便起見(jiàn),我們亦可以一本著(zhù)作或一位人物,作為某個(gè)學(xué)派理論的開(kāi)始或代表。
如此一來(lái),我們大概可以將測驗理論粗分為下列兩派:
1.古典測驗理論(classical test theory,簡(jiǎn)稱(chēng)CTT):代表人物和作品分別為H. Gulliksen
的「Theory of mental test」(1950)。
2.試題反應理論(item response theory,簡(jiǎn)稱(chēng)IRT):代表人物和作品分別為F. Lord 的
「Applications of item response theory to practical testing problems」(1980)。
底下,僅先就古典測驗理論的重要內涵做個(gè)扼要的評述,下一節再敘述試題反應理論。
「古典測驗理論」是最早的測驗理論,至今,它仍然是最實(shí)用的測驗理論,許多通用的
測驗仍然是根據傳統方法來(lái)編製,並且建立起測驗資料間的實(shí)證關(guān)係。古典測驗理論也叫「古
典信度理論」(classical reliability theory),因為,它的主要目的是在估計某個(gè)測驗實(shí)得分數
(observed score)的信度;亦即,它企圖估計實(shí)得分數與真實(shí)分數(true score)間的關(guān)聯(lián)程
度。因此,有時(shí)候它又稱(chēng)作「真實(shí)分數理論」(true score theory), 因為它的理論來(lái)源都是建
立在以「真實(shí)分數模式」(true score model)為名的數學(xué)模式基礎上。
當某位受試者接受一份測驗的施測後,他(或她)在該測驗上的得分(即「實(shí)得分數」),
即代表在某些特定的情境下,他(或她)在這些試題樣本上的能力(ability)。 當然,有許
多因素會(huì )影響受試者在測驗上的表現。即使在內容範圍相同但試題樣本不同的條件下,或在
不同的時(shí)間、主測者、與施測情境條件下,受試者的表現也都有可能會(huì )不一樣。因此,如果
單元一
古典測驗理論簡(jiǎn)介
2006/9/15
2
我們在所有可能的施測情境下、在所有可能的不同時(shí)間範圍內、或儘可能使用不同試題樣本,
來(lái)針對同一位受試者進(jìn)行同樣的測驗多次(理論上是無(wú)窮多次),則我們可以獲得許多有關(guān)該
受試者的實(shí)得分數。這些實(shí)得分數的平均數(又稱(chēng)為期望值(expected value)),即代表該受
試者能力的不偏估計值(unbiased estimate),該估計值即被定義為「真實(shí)分數」。因此,所謂
的「真實(shí)分數模式」,即是指一種直線(xiàn)關(guān)係的數學(xué)模式(linear model),用來(lái)表示任何可以觀(guān)
察到、測量到的實(shí)得分數(又簡(jiǎn)稱(chēng)為觀(guān)察值或測量值)皆由下列兩個(gè)部份所構成的一種數學(xué)
涵數關(guān)係,這兩個(gè)部份分別是:一為觀(guān)察不到,但代表研究者真正想要去測量的潛在特質(zhì)
(latent trait)部份,叫作「真實(shí)分數」;另一為觀(guān)察不到,且不代表潛在特質(zhì),卻是研究者
想要極力去避免或設法降低的部份,叫作「誤差分數」(error score)。這兩個(gè)部份合併構成任
何一個(gè)真實(shí)的測量值(即實(shí)得分數),並且彼此之間具有及延伸出多種基本假設,能符合這些
基本假設的測量問(wèn)題,即為真實(shí)分數模式所探討的範疇。
根據古典測驗理論的假設,受試者所具有的某種潛在特質(zhì),無(wú)法單由一次測驗的實(shí)得分
數來(lái)表示,它必須由受試者在無(wú)數次測驗上所得的實(shí)得分數,以其平均數來(lái)表示,該數值即
是受試者的潛在特質(zhì)之不偏估計值,即是前述的「真實(shí)分數」;真實(shí)分數的存在並不受測量次
數的影響,它代表長(cháng)期測量結果「不變」的部份。而實(shí)際上,單獨一次測量所得的實(shí)得分數,
總會(huì )與真實(shí)分數間產(chǎn)生一段差距,這段差距即稱(chēng)作「隨機誤差分數」(random error score),
或簡(jiǎn)稱(chēng)為「誤差」(error);誤差分數深受測量工具之精確度的影響很大,它代表某次測量結
果「可變」的部份。若以數學(xué)公式來(lái)表示,這兩種分數與實(shí)得分數間的關(guān)係可以表示如下:
χ = t + e
其中,χ 代表實(shí)得分數, t 代表真實(shí)分數, e 代表誤差分數。
古典測驗理論即是建立在上述這種真實(shí)分數模式及其假設的基礎上,針對測驗資料間的
實(shí)證關(guān)係,進(jìn)行有系統解釋的一門(mén)學(xué)問(wèn)。
壹、真實(shí)分數理論的基本假設及其結論
真實(shí)分數模式的成立,必須滿(mǎn)足一些基本假設,這些基本假設就是真實(shí)分數理論所賴(lài)以
建立的基礎。
真實(shí)分數理論的基本假設,可以歸納成下列七項:
1. e t + = χ (即實(shí)得分數等於真實(shí)分數與誤差分數之和);
2. t = Ε ) ( χ (即實(shí)得分數的期望值等於真實(shí)分數);
3. 0 = te ρ (即真實(shí)分數與誤差分數之間呈零相關(guān));
4. 0 2 1 = e e ρ (即不同測驗的誤差分數間呈零相關(guān));
單元一
古典測驗理論簡(jiǎn)介
2006/9/15
3
5. 0 2 1 = t e
ρ (即不同測驗的誤差分數與真實(shí)分數間呈零相關(guān));
6. 假設有兩個(gè)測驗,其實(shí)得分數分別為χ和' χ,並且滿(mǎn)足上述 1 到 5 的假設,且對每一群
體考生而言,亦滿(mǎn)足 ' t t = 和'
2 2
e e σ σ = 等條件,則這兩個(gè)測驗便稱(chēng)作「複本測驗」 (parallel
tests);
7. 假設有兩個(gè)測驗,其實(shí)得分數分別為χ和' χ,並且滿(mǎn)足上述 1 到 5 的假設,且對每一群
體考生而言,亦滿(mǎn)足 12 2 1 c t t + = ,其中 12 c 為一常數,則這兩個(gè)測驗稱(chēng)作「本質(zhì)上τ相等測
驗」(essentially τ-equivalent tests)。
根據上述七個(gè)基本假設的數學(xué)公式所示可知,古典測驗理論對測量問(wèn)題所持的觀(guān)點(diǎn),可
以做如下的詮釋?zhuān)?br>1.假設具有潛在特質(zhì)存在。
從第一個(gè)假設可知,測量必須要有對象,此對象即是我們所假定的潛在特質(zhì)(亦即是t
所代表者),它是看不見(jiàn)的東西,但我們必須先假設它的存在,如此才值得我們去測量它,若
不先假設它是存在的,則我們的任何測量行為都將失卻目標,變得盲目無(wú)效。
2.多次測量的推論結果。
既然上述所假設的潛在特質(zhì)是看不見(jiàn)的,因此,我們就無(wú)法直接進(jìn)行測量它。我們僅能
從數學(xué)觀(guān)點(diǎn)去假設它與我們從外觀(guān)測量得到的數據間具有某種數學(xué)關(guān)係(通常都假設成直線(xiàn)
關(guān)係),為了釐清這種關(guān)係,通常需要使用多次的測量數據,再透過(guò)統計學(xué)的估算(如:求期
望值),才能估計出這種潛在特質(zhì)的量到底是多少,並且推論出它與外觀(guān)測量得到的數據間具
有什麼關(guān)係。
3.單獨一次的測量必有誤差存在。
既然潛在特質(zhì)是經(jīng)由多次測量才推論得到,因此,單獨一次的測量結果,除了測量到所
要測量的潛在特質(zhì)外,也必定同時(shí)測量到誤差成份。但是,在經(jīng)過(guò)多次的測量後,我們由上
述說(shuō)明所推論出來(lái)的結果將愈來(lái)愈接近真正的潛在特質(zhì),因此,這麼多次測量值所含的誤差
分數也就可以彼此抵銷(xiāo)。這項結論也就是上述第一和第二個(gè)假設合併起來(lái)的推理結果。
4.假設潛在特質(zhì)與誤差之間是獨立的。
第四個(gè)假設把測量問(wèn)題單純化,僅假設潛在特質(zhì)與誤差之間是獨立的。由於有這項假設
存在,在測量時(shí),我們不必考慮其他可能干擾測量結果的來(lái)源,僅將潛在特質(zhì)以外的干擾,
統統歸類(lèi)到所謂的測量誤差(measurement errors),不再進(jìn)一步細部分析,如此,可以把測量
結果的推論問(wèn)題單純化。附帶一提的是,這項假設亦延伸出第四和第五個(gè)假設;但是,這種
把測量問(wèn)題單純化的假設,卻是造成古典測驗理論飽受批評的地方。
5.複本測驗的嚴格假設。
單元一
古典測驗理論簡(jiǎn)介
2006/9/15
4
古典測驗理論對測量結果的解釋和比較,是建立在複本測驗的嚴格假設上。換句話(huà)說(shuō),
從第六和第七個(gè)假設可知,唯有滿(mǎn)足複本測驗之嚴格假設的兩個(gè)測量結果間,才可以直接進(jìn)
行比較大小和解釋優(yōu)劣;若非滿(mǎn)足此假設,則任何兩次測量結果間的解釋和比較,均是無(wú)意
義的。
根據上述的詮釋?zhuān)瑥恼鎸?shí)分數理論的基本假設可以推導出下列十八項結論,這些結論正
是古典測驗理論的研究主題所賴(lài)以推理及演繹的依據:
1. 0 ) ( = Ε e (即誤差分數的期望值為零);
2. 0 ) , ( = = Ε et t e ρ (即誤差分數與真實(shí)分數之期望值為零);
3. e t x
2 2 2 σ σ σ + = (即實(shí)得分數的變異數等於真實(shí)分數的變異數與誤差分數的變異數之和);
4. x t xt
2 2 2 σ σ ρ = (即實(shí)得分數與真實(shí)分數間之相關(guān)係數的平方等於真實(shí)分數之變異數和實(shí)
得分數之變異數的比值);
5. x e xt
2 2 2 1 σ σ ρ − = (即實(shí)得分數與真實(shí)分數間之相關(guān)係數的平方等於1減去誤差分數之變
異數和實(shí)得分數之變異數的比值);
6. '
2 2
x x σ σ = (即複本測驗的實(shí)得分數之變異數相同);
7. y x xy ' ρ ρ = (即複本測驗分數與另一變項分數間的相關(guān)係數相同);
8. '
2
'
2 2 2
' x t x t xx σ σ σ σ ρ = = (即複本測驗分數間的相關(guān)係數等於其中一種測驗之真實(shí)分數
變異數和實(shí)得分數變異數的比值);
9. x e xx
2 2
' 1 σ σ ρ − = (即複本測驗分數間的相關(guān)係數等於1減去誤差分數之變異數和實(shí)得分
數之變異數的比值);
10. xe xx
2
' 1 ρ ρ − = (即複本測驗分數間的相關(guān)係數等於1減去實(shí)得分數與誤差分數間之相關(guān)
係數的平方);
11. '
2
xx xt ρ ρ = (即實(shí)得分數與真實(shí)分數間之相關(guān)係數的平方等於複本測驗分數間的相關(guān)係
數);
12. '
2
xx t σ σ = (即真實(shí)分數的變異數等於複本測驗的實(shí)得分數間之共變數);
13. ) 1 ( '
2 2
xx x e ρ σ σ − = (即誤差分數的變異數等於實(shí)得分數的變異數乘以1減去複本測驗間
之相關(guān)係數);
14.
' ' yy xx
xy
t t y x ρ ρ
ρ
ρ = (即任兩個(gè)測驗的真實(shí)分數間之相關(guān)係數等於該二測驗的實(shí)得分數間
之相關(guān)係數除以該二測驗之複本測驗相關(guān)係數的相乘積之開(kāi)根號);
單元一
古典測驗理論簡(jiǎn)介
2006/9/15
5
15. Y X t t N 2 2 2 σ σ = (即如果X為N個(gè)複本測驗分數Y之和,則X的真實(shí)分數之變異數等於N
平方倍之Y的真實(shí)分數之變異數);
16. Y X e e N 2 2 2 σ σ = (即如果X為N個(gè)複本測驗分數Y之和,則X的誤差分數之變異數等於N
平方倍之Y的誤差分數之變異數);
17.
'
'
' ) 1 ( 1 YY
YY
xx N
N
ρ
ρ
ρ
− +
= (即如果X為N個(gè)複本測驗分數Y之和,則此為 Spearman-Brown 的
折半信度公式);
18. 如果0 ' ≠ YY ρ ,則1 lim ' =
∞ → xx n
ρ (即X和Y的定義同結論15,如果' YY ρ 不等於0, 則' XX ρ 的
極限為1)。
整個(gè)古典測驗理論便是以前述七項基本假設,和推導出的十八項結論為基礎,企圖去估
計測驗內(或測驗間)實(shí)得分數與真實(shí)分數間的關(guān)聯(lián)強度,這些關(guān)聯(lián)強度亦即是該理論所要
估計的各種可能信度係數,故古典測驗理論又有「古典信度理論」之稱(chēng)。
除了信度估計之外,古典測驗理論也還探討其他有關(guān)聯(lián)的話(huà)題,例如:效度(validity)、
測驗編製(test construction)、常模(norm)、測驗等化(test equating)、測驗偏差(test bias)、
試題分析(item analysis)、精熟測驗(mastery testing)、適性測驗(adaptive testing)、題庫建
立(item banking)、及其在社會(huì )科學(xué)研究上的應用課題等;這些課題都是根據它的基本假設
和推論延伸而來(lái),並且散見(jiàn)於專(zhuān)書(shū)、會(huì )議論文、和下列各種重要學(xué)術(shù)期刊:
1. Annual Review of Psychology
2. Applied Psychological Measurement
3. The British Journal of Mathematical and Statistical Psychology(早期刊名:The British
Journal of Statistical Psychology)
4. Educational Measurement : Issues and Practice
5. Educational and Psychological Measurement
6. Journal of Educational Measurement
7. Journal of Educational Statistics
8. Psychometrika
9. 中華心理學(xué)刊
10. 測驗年刊
11. 測驗與輔導
12. 輔導月刊
13. 國內各大學(xué)相關(guān)學(xué)報及教育領(lǐng)域學(xué)術(shù)期刊
貳、古典測驗理論的優(yōu)缺點(diǎn)
單元一
古典測驗理論簡(jiǎn)介
2006/9/15
6
古典測驗理論的理論架構,主要是以真實(shí)分數模式為主,其理論模式的發(fā)展已為時(shí)甚久,
且頗具規模,所採用的計算公式簡(jiǎn)單明瞭、淺顯易懂,適用於大多數的教育與心理測驗情境,
以及社會(huì )科學(xué)研究資料的分析,為目前心理計量學(xué)界應用與流通最廣的一種測驗理論。
然而,若從當代測驗理論(以「試題反應理論」為代表)的觀(guān)點(diǎn)來(lái)看,古典測驗理論除
了具備上述各項優(yōu)點(diǎn)外,卻含有下列諸項缺失:
1.古典測驗理論所採用的指標,諸如:難度(difficulty)、鑑別度(discrimination)、和信
度(reliability) 等,都是一種樣本依賴(lài)(sample dependent)的指標;也就是說(shuō),這些指標
的獲得,會(huì )因為接受測驗的受試者樣本的不同而不同,因此,針對不同潛在特質(zhì)的樣本,同
一份測驗很難獲得一致的難度、鑑別度、或信度等指標。
2.古典測驗理論以一個(gè)共同的測量標準誤(standard error of measurement),作為每位受試
者的潛在特質(zhì)估計值的測量誤差指標;這種作法完全沒(méi)有考慮受試者反應的個(gè)別差異,對於
具有高、低兩極端潛在特質(zhì)的受試者而言,這種指標極為不合理且不精確,致使古典測驗理
論模式的適當性受到懷疑。
3.古典測驗理論對於非複本(nonparallel),但功能相同的測驗所獲得之量數間,無(wú)法提
供有意義的比較;有意義的比較僅侷限在相同測驗的前後測量之量數或複本測驗分數之間而
已。
4.古典測驗理論對信度的假設,是建立在複本(parallel forms)測量概念的假設上;但是
這種假設在實(shí)際的測驗情境裡,往往是不合理或不存在的。因為,在實(shí)際的測驗情境下,施
測者不可能要求每位受試者在接受同一份測驗無(wú)數次後,而仍然保持每次反應結果都彼此獨
立、互相不影響;況且,每一種測驗並不一定在編製測驗之時(shí)就同時(shí)製作複本。因此,複本
測量的理論假設是行不通的,不論是從實(shí)際層面或方法學(xué)邏輯的觀(guān)點(diǎn)來(lái)看,它的假設既不切
實(shí)際、又不合理、並且也是矛盾的。
5.古典測驗理論忽視受試者作答的試題反應組型(item response pattern)所代表的意義,
對於在原始得分上相同的受試者或正確反應總和相同的試題,即看成是潛在特質(zhì)(如:能力)
或試題參數(如:難度)的估計值相同。這種觀(guān)點(diǎn)其實(shí)是不正確的,因為,總分相同的受試
者或總和相同的試題,其試題反應組型不見(jiàn)得會(huì )完全一致,因此,試題反應組型所顯示的意
義也不會(huì )相同,所估算出的潛在特質(zhì)和試題參數估計值,應該也會(huì )不一樣。
由於古典測驗理論有上述諸項缺失,學(xué)者們?yōu)閺浹a這個(gè)理論上的缺失,乃轉向尋求理論
與方法均較嚴謹的當代測驗理論,於是才會(huì )有日後的「試題反應理論」誕生。不過(guò),由於古
典測驗理論所採用的數學(xué)方法較為簡(jiǎn)單易行,廣被中小學(xué)教師及一般大眾所能接受,在當今
單元一
古典測驗理論簡(jiǎn)介
2006/9/15
7
實(shí)務(wù)應用方面,古典測驗理論的重要性仍佔有一席之地。
附錄 古典測驗理論的重要參考專(zhuān)書(shū)
Allen, M. J., & Yen, W. M. (1979). Introduction to measurement theory. Monterey, CA:
Brooks/Cole.
Anastasi, A. (1988). Psychological testing (6th ed.). New York: Macmillan.
Berk, R. A. (Ed.) (1980). Criterion referenced measurement: The state of the art. Baltimore,
MD: Johns Hopkins University Press.
Berk, R. A. (Ed.) (1982). Handbook of methods for detecting test bias. Baltimore, MD: Johns
Hopkins University Press.
Berk, R. A. (Ed.) (1984). A guide to criterion referenced test construction. Baltimore, MD:
Johns Hopkins University Press.
Berk, R. A. (Ed.) (1986). Performance assessment: Methods and applications. Baltimore,
MD: Johns Hopkins University Press.
Cohen, R. J., Montague, P., Nathanson, L. S., & Swerdlik, M. E. (1988). Psychological testing:
An introduction to tests and measurement. Mountain View, CA: Mayfield.
Crocker, L., & Algina, J. (1986). Introduction to classical and modern test theory. New York:
Holt, Rinehart & Winston.
Cronbach, L. J. (1990). Essentials of psychological testing (5th ed.). New York: Harper &
Row.
Cronbach, L. J., Gleser, G. C., Nanda, H., & Rajaratnam, N. (1972). The dependability of
behavioral measures: Theory of generalizability for scores and profiles. New York: John Wiley &
Sons.
Dick, W., & Hagerty, N. (1971). Topics in measurement: Reliability and validity. New York:
McGraw-Hill.
DuBois, P. H. (1970). A history of psychological testing. Boston, MA: Allyn & Bacon.
Ebel, R. L., & Frisbie, D. A. (1991). Essentials of educational measurement (5th ed.).
Englewood Cliffs, NJ: Prentice-Hall.
Fan, C. T. (1952). Item analysis table. Princeton, NJ: Educational Testing Service.
Gronlund, N. E. (1993). How to make achievement tests and assessments (5th ed.). Boston:
Allyn & Bacon.
Gronlund, N. E., & Linn, R. L. (1990). Measurement and evaluation in teaching (6th ed.).
New York: Macmillan.
Gulliksen, H. (1987). Theory of mental test. Hillsdale, NJ: Lawrence Erlbaum Associates.
(Originally published in 1950 by New York: John Wiley & Sons)
Haladyna, T. M. (1994). Developing and validating multiple-choice test items. Hillsdale, NJ:
單元一
古典測驗理論簡(jiǎn)介
2006/9/15
8
Lawrence Erlbaum Associates.
Hopkins, K. D., Stanley, J. C., & Hopkins, B. R. (1990). Educational and psychological
measurement and evaluation (7th ed.). Englewood Cliffs, NJ: Prentice Hall.
Jensen, A. R. (1980). Bias in mental testing. New York: The Free Press.
Kaplan, R. M., & Saccuzzo, D. P. (1993). Psychological testing: Principles, applications, and
issues (3rd ed.). Pacific Grove, CA: Brooks/Cole.
Kryspin, W. J., & Feldhusen, J. T. (1974). Developing classroom tests. Minneapolis, Minn:
Burgess.
Kubiszyn, T., & Borich, G. (1987). Educational testing and measurement: Classroom
application and practice (2nd ed.). Glenview, IL: Scott, Foresman & Company.
Lindquist, E. F. (Ed.) (1951). Educational measurement. Washington, DC: American Council
on Education.
Linn, R. L. (Ed.) (1989). Educational measurement (3rd ed.). Washington, DC: American
Council on Education.
Linn, R. L., & Gronlund, N. E. (2000). Measurement and assessment in teaching (8th ed.).
Upper Saddle River, NJ: Prentice-Hall.
Lord, F. M., & Novick, M. R. (1968). Statistical theories of mental test scores. Reading, MA:
Addison-Wesley.
Mehrens, W. A., & Lehmann, I. J. (1991). Measurement and evaluation in education and
psychology (4th ed.). New York: Holt, Rinehart & Winston.
Nitko, A. J. (1983). Educational tests and measurement. New York: Harcourt Brace
Jovanovich.
Nitko, A. J. (2001). Educational assessment of students (3rd ed.). Upper Saddle River, NJ:
Prentice-Hall.
Noll, V. H., Scannell, D. P., & Craig, R. C. (1979). Introduction to educational measurement
(4th ed.). Boston, MA: Houghton Mifflin.
Oosterhof, A. (2001). Classroom applications of educational measurement(3rd ed.). Upper
Saddle River, NJ: Prentice-Hall.
Osterlind, S. J. (1998). Constructing test items: Multiple-choice, constructed-response,
performance, and other formats(2nd ed.). Boston: Kluwer Academic Publishers.
Ory, J. C., & Ryan, K. E. (1993). Tips for improving testing and grading. Newbury Park, CA:
Sage.
Payne, D. A. (1992). Measuring and evaluating educational outcomes. New York:
Macmillian.
Popham, W. J. (1978). Criterion-referenced measurement. Englewood Cliffs, NJ:
Prentice-Hall.
Popham, W. J. (1990). Modern educational measurement: A practitioner's perspective (2nd
ed.). Englewood Cliffs, NJ: Prentice-Hall.
單元一
古典測驗理論簡(jiǎn)介
2006/9/15
9
Popham, W. J. (1999). Classroom assessment: What teachers need to know (2nd ed.). Boston:
Allyn & Bacon.
Priestly, M. (1982). Performance assessment in education and training: Alternative
techniques. Englewood Cliffs, NJ: Educational Technology Publications.
Sax, G. (1989). Principles of educational and psychological measurement and evaluation
(3rd ed.). Belmont, CA: Wadsworth.
Stiggins, R. J. (1994). Student-centered classroom assessment. New York: Macmillan.
Stiggins, R. J., & Conklin, N. F. (1992). In teacher's hands. Albany, NY: State University of
New York Press.
Suen, H. K. (1990). Principles of test theories. Hillsdale, NJ: Lawrence Erlbaum Associates.
Thorndike, R. M., Cunningham, G. K., Thorndike, R. L., & Hagen, E. P. (1991). Measurement
and evaluation in psychology and education (5th ed.). New York: Macmillan.
Tindal, G. A., & Marston, D. B. (1990). Classroom-based assessment. Columbus, OH: Charles
E. Merrill.
Wainer, H., & Braun, H. I. (Eds.) (1988). Test validity. Hillsdale, NJ: Lawrence Erlbaum
Associates.
Wiersma, W., & Jurs, S. G. (1990). Educational measurement and testing (2nd ed.). Boston:
Allyn & Bacon.
Worthen, B. R., Borg, W. R., & White, K. R. (1993). Measurement and evaluation in the
schools. New York: Longman.