欧美性猛交XXXX免费看蜜桃,成人网18免费韩国,亚洲国产成人精品区综合,欧美日韩一区二区三区高清不卡,亚洲综合一区二区精品久久

打開(kāi)APP
userphoto
未登錄

開(kāi)通VIP,暢享免費電子書(shū)等14項超值服

開(kāi)通VIP
試題反應理論
試題反應理論的介紹(十三) ——試題偏差的診斷 英譯名:(The detection of item bias) 余民寧 著(zhù) 英譯名:(Min-Ning Yu) 社會(huì )大眾對心理測驗或教育測量有個(gè)相當迫切的關(guān)注,那就是測驗的公平性(test fairness)問(wèn)題。例如,我們的大學(xué)聯(lián)考試題對少數族群(如:偏遠地區、離島、或少數殘障的學(xué)生)的考生而言,都很公平嗎?我國的高普考試試題對性別不同的男女考生而言,也都很公平嗎?這些類(lèi)似問(wèn)題的答案,也許都不是。由於編製測驗試題的專(zhuān)家,受到自己本身的專(zhuān)業(yè)素養、國學(xué)程度、文化認知、甚至主觀(guān)偏見(jiàn)等限制和影響,以致所編製出的試題有時(shí)只會(huì )有利於某些族群的考生,而不利於另一些族群的考生,這種現象和問(wèn)題,便是本文所要探討的試題偏差(item bias)的問(wèn)題。雖然,在古典測驗理論裡也談試題偏差的診斷和補救,但試題反應理論對此問(wèn)題所提出的理論基礎和考驗架構,卻是相當完整、周延、和嚴謹的。 傳統上對診斷試題偏差的作法是:收集所關(guān)懷的少數族群(minority)在測驗試題上的表現好壞資料,以及多數族群(majority)的表現資料,再比較其差異,以作為判斷試題有否偏差的實(shí)徵證據(empirical evidence)。其實(shí),表現有差異存在的實(shí)徵證據是結論說(shuō)試題有偏差的必要條件,而非充分條件;也就是說(shuō),這種結論已超過(guò)資料所能推論的範圍。為了區別實(shí)徵證據與結論間的不同,學(xué)者們往往使用「不同的試題運作功能」(differential item functioning,簡(jiǎn)寫(xiě)成DIF)一詞來(lái)取代涵意不明確的「偏差」(bias)概念,以用來(lái)描述實(shí)徵證據背後所涵蓋的偏差涵意(Berk, 1982)。 即使對什麼樣的DIF的定義才較適當?也有很多爭辯存在。目前有個(gè)關(guān)於測驗公平性問(wèn)題的看法認為:「在某個(gè)試題上,如果多數族群和少數族群的平均表現有所不同的話(huà),該試題便顯示出具有DIF的現象?!蛊鋵?shí),這種看法也有個(gè)缺失,那就是未考慮其他影響變項的可能性,如:原本這兩個(gè)族群的能力就有所不同,因此才導致他們在某個(gè)試題(或某份測驗)上表現不同(Lord, 1980)。 目前,比較被心理計量學(xué)者所接受的DIF的定義為:「來(lái)自不同族群,但能力相同的個(gè)人,如果在答對某個(gè)試題上的機率有所不同的話(huà),則該試題便顯現出DIF的現象?!褂辛诉@項定義,試題反應理論(IRT)很自然的提供一個(gè)研究DIF的架構,因為試題特徵函數正可以說(shuō)明答對某個(gè)試題的機率,是與受試者的潛在能力和試題的潛在特徵有某種關(guān)聯(lián)存在。因此,DIF的定義可以被寫(xiě)成下列的操作型定義:「某個(gè)試題特徵函數如果對不同的族群而言都不相同的話(huà),則該試題便顯現出DIF;反之,如果跨越不同族群的試題特徵函數都相同的話(huà),則該試題便不具有DIF?!贡疚募凑?wù)撛囶}反應理論對診斷試題偏差(或說(shuō)試題DIF)的各種方法,並舉例說(shuō)明它的用法。 診斷DIF的IRT方法 根據上述的定義,我們只要比較兩個(gè)或多個(gè)族群在某個(gè)試題特徵函數上的差
1
異,就可以判別該試題是否具有DIF存在。試題反應理論常用來(lái)診斷試題偏差的方法有三種:一為比較試題特徵曲線(xiàn)的參數;另一為比較介於試題特徵曲線(xiàn)間的面積;最後一種為比較反應模式與資料間的適合度。茲分別描述如下: 一、比較試題特徵曲線(xiàn)的參數 如果兩個(gè)試題特徵函數的參數值相同的話(huà),則該試題特徵曲線(xiàn)在線(xiàn)上所有點(diǎn)的功能會(huì )相同,答對該試題的正確機率值也會(huì )一樣。因此,試題特徵函數的參數均相等的虛無(wú)假設,可以表示如下: Hbbaacc0121212:;;=== 足標表示不同族群的參數估計值。如果我們能夠拒絕某個(gè)試題的虛無(wú)假設,則顯示該試題具有DIF的現象。 這種診斷的方法,需要用到參數估計值的變異數-共變數矩陣(或訊息函數矩陣),其診斷的步驟如下: 1.選取一個(gè)適當的試題反應模式。 2.分別估計不同族群考生的能力及試題參數。 3.經(jīng)由銜接的過(guò)程,將參數值建立在共同的量尺上。 4.以矩陣表示試題參數所組成的向量,例如:Xabciii=[,,],並計算其訊息矩陣或變異數-共變數矩陣。 5.計算虛無(wú)假設的統計考驗值如下: XXXXX2121112=−∑−−()() 其中,∑表示是參數估計值之差值的變異數-共變數矩陣。此統計值將成為X2P個(gè)自由度的卡方分配,P為我們所選用的試題反應模式的參數個(gè)數;例如,選用三個(gè)參數對數型模式時(shí),P為3;選用二個(gè)參數對數型模式時(shí),P為2。 6.選定臨界點(diǎn)(如α=.05),並查卡方分配表的顯著(zhù)臨界值。如果計算出的值大於查表的卡方值,則要拒絕虛無(wú)假設,而說(shuō)某個(gè)試題在不同的族群上具有DIF存在。 X2 上述這種診斷方法,也遭到幾種批評:一為即使在某種能力範圍內,某兩條試題特徵曲線(xiàn)沒(méi)有實(shí)質(zhì)上的差異存在,也會(huì )獲得很顯著(zhù)差異的試題參數。Linn, Levine, Hastings & Wardrop(1981)便舉例說(shuō)明這種現象也有可能存在,因此容易產(chǎn)生誤判的結論。另一為這種卡方分配曲線(xiàn)的統計考驗值,只是一種漸近的曲線(xiàn)(也就是說(shuō)它必須使用大樣本才行)而已,它只有在能力參數為已知的情況下,才能適用到試題參數的估計值上,對於要多大的樣本才適用?能力與試題參數同時(shí)估計的情況下,是否還適用?這種卡方統計值並無(wú)法解答這些質(zhì)疑。 二、比較介於試題特徵曲線(xiàn)間的面積 我們曾於前文說(shuō)過(guò),試題參數不受考生能力分佈的影響(亦即具有樣本獨立的估計特性),因此,根據不同族群考生所估計出來(lái)的同一個(gè)試題參數或試題特徵曲線(xiàn),在經(jīng)過(guò)銜接或等化之後,這些試題參數應該都已建立在共同的量尺上,其試題特徵曲線(xiàn)(ICC)應該會(huì )相同,此時(shí),試題特徵曲線(xiàn)間的面積應該等於零(Rudner,
2
Getson & Knight, 1980);如果這些面積不是為零的話(huà),則顯示該試題對不同族群考生而言,具有DIF的現象。 這種診斷方法的步驟如下: 1.選取一個(gè)適當的試題反應模式。 2.分別估計不同族群考生的能力及試題參數。 3.經(jīng)由銜接的過(guò)程,將不同族群考生之能力及試題參數加以銜接,以建立在共同的量尺上。 4.將能力量尺自到之間,分成−30.+30.K個(gè)等分。 5.以每個(gè)等分的中點(diǎn)為中心,畫(huà)出該等分的條狀長(cháng)方形圖。 6.計算出每個(gè)等分的中點(diǎn)處所能獲得的試題特徵曲線(xiàn)(機率)值。 7.計算出兩組不同族群考生在每個(gè)等分中點(diǎn)處之機率差值的絕對值。 8.並將該絕對值差值乘上每個(gè)等分的寬度(即條狀長(cháng)方形圖之寬度),最後,將這些乘積值加總起來(lái)。如以數學(xué)符號來(lái)表示,本步驟可以寫(xiě)成: APPiijijjK=−=∑|()()|121θθ?θ
其中,?θ表示每個(gè)等分的寬度,Pi1()θ和Pi2()θ分別代表兩個(gè)不同族群考生在某個(gè)試題之試題特徵曲線(xiàn)(機率)值。 i9.判斷值,如果值很大,則表示試題對不同族群考生而言,具有DIF的現象。 AiAii 上述這種診斷方法也有幾項難處:第一,當選用三個(gè)參數對數形模式時(shí),如果參數對兩組不同族群考生而言不是零或相等的話(huà),則值的顯著(zhù)考驗便無(wú)法進(jìn)行。第二,由於兩組的試題參數都需要估計,因此也需要能力值範圍較廣的考生加入,所以往往需要使用大樣本;如果每組使用的人數不夠多(即能力值範圍不夠寬廣)的話(huà),則容易導致一個(gè)錯誤的DIF的結論。 CAi 三、比較反應模式與資料間的適合度 如果不同族群考生產(chǎn)生不同的適合度估計值,也表示試題具有DIF的現象。這種利用模式與資料間的適合度作為診斷的方法,其步驟如下: 1.將不同族群考生的資料合併起來(lái),並進(jìn)行試題與能力參數的估計。 2.根據估計出的參數值,將每位考生在每個(gè)試題上的答對機率值算出。 $(,,;,,PinjNij==11LL )
3.計算不同的考生族群在每個(gè)試題上的平均值和答對率。 $Pij4.比較各族群在每個(gè)試題上的平均值和答對率是否有差別存在,以判定試題具有DIF的程度。 $Pij 上述這種診斷方法也有些缺失,例如,比較不同族群在每個(gè)試題上的平均值和答對率的差異時(shí),不論是用卡方考驗或 t 考驗,都很容易因為使用大樣本或大題數而達到顯著(zhù)差異,造成反應模式與資料間的不適合,因而錯誤下結論說(shuō)某試題具DIF現象。 $Pij
3
實(shí)例舉隅 假設從多數族群(以安格魯美國人為主)中隨機抽取1000名受試者當樣本,另從少數族群(以土著(zhù)美國人為主)中隨機抽取另外的1000名受試者為樣本,並從題庫中隨機抽取25個(gè)試題給這兩個(gè)族群樣本施測。 假定選用三個(gè)參數對數形模式,作為這兩族群樣本的適合反應模式,並估計出這兩族群的試題參數,其中b值並予以標準化,以將這兩族群的參數建立在同一量尺上。接著(zhù),計算出這兩族群在每個(gè)試題上所夾的面積,以bθ=001.為計算單位,算出能力值在±3之間的面積,並以模擬資料所算出之沒(méi)有DIF情況下之最大分割面積值為0.498,若每個(gè)試題被兩個(gè)族群的試題特徵曲線(xiàn)所夾之面積大於0.498時(shí),則該試題被判定具有DIF,並以*來(lái)表示。另外,以和作為兩種考驗試題參數間是否有顯著(zhù)的指標,前者沒(méi)有把參數列入考慮,後者則有,其分別的臨界值為和。最後,將這三種診斷結果表列於表一中,其中,標示*者為被診斷出具有DIF的試題。 xab2xabc2cx200121382,..=x300121627,..= 表一 25個(gè)隨機試題的試題參數估計值、面積統計數、和卡方值 多數族群 少數族群 DIF統計數 試題 b1 a1 c1 b2 a2 c2 面積 xaba2 xabcb2 1 3 5 8 11 13 14 16 20 21 30 38 41 45 46 49 50 52 56 57 0.840 -0.412 -1.347 0.125 0.319 0.693 -0.308 -0.193 -0.337 -0.514 -1.463 -1.168 1.011 1.808 -0.481 -0.663 0.409 1.444 0.338 0.281 0.575 0.773 0.413 0.608 0.639 0.714 1.044 0.977 0.536 0.529 0.488 0.549 0.849 1.166 0.583 0.661 0.431 1.050 0.404 0.685 0.190 0.190 0.190 0.190 0.190 0.190 0.190 0.190 0.190 0.190 0.190 0.190 0.190 0.137 0.190 0.190 0.190 0.190 0.190 0.190 0.823 -0.008 -0.953 0.286 -0.197 0.728 -0.650 0.286 -0.106 -0.628 -0.716 -1.175 0.943 2.778 0.140 -1.128 0.265 1.246 1.545 -0.497 0.896 0.906 0.821 0.414 0.645 0.303 0.551 1.999 0.595 0.407 0.839 0.433 1.054 0.509 0.586 0.528 0.430 1.201 0.405 0.489 0.170 0.170 0.170 0.170 0.170 0.170 0.170 0.231 0.170 0.170 0.170 0.170 0.170 0.125 0.170 0.170 0.170 0.137 0.170 0.170 0.417 0.388 0.609*0.344 0.342 0.732*0.494 0.405 0.238 0.217 0.637*0.195 0.214 0.641*0.540*0.290 0.057 0.315 0.880*0.536*5.84 7.90 21.13* 5.31 17.80* 21.86* 17.12* 29.13* 1.57 2.20 11.14 4.15 1.33 14.74* 11.62 5.73 0.56 1.94 14.11* 32.43* 6.01 9.52 12.99 5.21 14.74 19.38*15.83 23.07*2.42 2.22 9.78 4.64 1.76 12.08 13.09 3.64 0.15 3.19 16.42*21.54*
4
60 64 68 73 75 0.904 0.245 -1.398 -0.567 1.646 0.569 0.442 0.340 0.640 0.317 0.190 0.190 0.190 0.190 0.190 1.154 -0.387 -0.122 -0.007 0.534 0.531 0.280 0.693 1.223 0.562 0.170 0.170 0.170 0.170 0.170 0.257 0.467 0.942*0.648*0.722*1.19 10.52 15.41* 20.29* 23.53* 2.10 5.56 15.07 20.04*15.24 a. x200121382,..=b. x300121627,..=*表示達.001顯著(zhù)水準 由表一資料可知,前兩種診斷方法的一致性達77%,二者的等級相關(guān)係數為.71。圖一和圖二分別是診斷出的DIF型態(tài),茲分別說(shuō)明如下。 -4-3-2-1012341能力機率0.90.80.70.60.50.40.30.20.10多數族群少數族群 圖一 多數族群和少數族群在試題56上的ICC圖 -4-3-2-1012341能力機率0.90.80.70.60.50.40.30.20.10多數族群少數族群 圖二 多數族群和少數族群在試題13上的ICC圖 由圖一所示可知,兩個(gè)族群在試題56上的ICC線(xiàn),多少可以說(shuō)是平行的,主
5
要的差別只在b參數值上,亦即兩條ICC線(xiàn)的座落位置參數(location parameter)不同而已。這種類(lèi)型的DIF稱(chēng)作「均一變化曲線(xiàn)的DIF」(uniform DIF),亦即在所有的能力範圍內,這兩種族群間的成功機率之差值,是呈均一變化的曲線(xiàn)。 由圖二所示可知,兩個(gè)族群在試題13上的ICC線(xiàn)表現不同:在低能力量尺的部份,少數族群表現得比多數族群好;而在高能力量尺部份,多數族群卻表現得比少數族群還好。這種類(lèi)型的DIF稱(chēng)作「非均一變化曲線(xiàn)的DIF」(nonuniform DIF),這時(shí),兩個(gè)族群在機率上的差異不是呈均一變化的曲線(xiàn)。 由上述表一可知,所診斷出的偏差試題數比所診斷出者還多,可見(jiàn)後者的診斷方法比前者以及面積統計數法還保守。這種利用IRT的程序來(lái)診斷試題偏差的一項優(yōu)點(diǎn)是:這些方法對不同類(lèi)型的DIF極為敏銳。這項特色並非其他非IRT程序所能媲美的(Holland & Thayer, 1988; Swaminathan & Rogers, 1990)。但是由上述例子的分析可知,當這些診斷方法所找到的解答不完全一致時(shí),便無(wú)法進(jìn)一步解釋其間的結果為什麼會(huì )有差異存在了(Hambleton, Swaminathan & Rogers, 1991)。 xab2xabc2 參考書(shū)目Berk, R. A. (Ed.) (1982). Handbook of methods for detecting test bias. Baltimore, MD: Johns Hopkins University Press. Hambleton, R. K., Swaminathan, H., & Rogers, H. J. (1991). Fundamentals of item response theory. Newbury Park, CA: Sage. Holland, P. W., & Thayer, D. T. (1988). Differential item performance and the Mantel-Haenszel procedure. In H. Wainer & H. I. Braun (Eds.), Test validity. (pp. 129-145). Hillsdale, NJ: Lawrence Erlbaum. Linn, R. L., Levine, M. V., Hastings, C. N., & Wardrop, J. L. (1981). Item bias in a test of reading comprehension. Applied Psychological Measurement, 5, 159-173. Lord, F. M. (1980). Applications of item response theory to proctical testing problems. Hillsdale, NJ: Lawrence Erlbaum. Rudner, L. M., Getson, P. R., & Knight, D. L. (1980). Biased item detection techniques. Journal of Educational Statistics, 5, 213-233. Swaminathan, H., & Rogers, H. J. (1990). Detecting differential item functioning using logistic regression procedures. Journal of Educational Measurement, 27, 361-370. 6
本站僅提供存儲服務(wù),所有內容均由用戶(hù)發(fā)布,如發(fā)現有害或侵權內容,請點(diǎn)擊舉報。
打開(kāi)APP,閱讀全文并永久保存 查看更多類(lèi)似文章
猜你喜歡
類(lèi)似文章
思戀:珍惜你當下的愛(ài)人
設計量尺要做到“六清”
面試技巧:面試技巧-審題
富小孩栽培手冊--人格健全 理財觀(guān)才會(huì )健全
-學(xué)霸的5種思維方式
少兒普通話(huà)與口才培訓的重要性
更多類(lèi)似文章 >>
生活服務(wù)
分享 收藏 導長(cháng)圖 關(guān)注 下載文章
綁定賬號成功
后續可登錄賬號暢享VIP特權!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服

欧美性猛交XXXX免费看蜜桃,成人网18免费韩国,亚洲国产成人精品区综合,欧美日韩一区二区三区高清不卡,亚洲综合一区二区精品久久