項目反應理論

現代心理測量理論

項目反應理論(item response theory)也稱潛在特質理論或潛在特質模型,是一種現代心理測量理論,其意義在於可以指導項目篩選和測驗編製。項目反應理論假設被試有一種“潛在特質”,潛在特質是在觀察分析測驗反應基礎上提出的一種統計構想,在測驗中,潛在特質一般是指潛在的能力,並經常用測驗總分作為這種潛力的估算。項目反應理論認為被試在測驗項目上的反應和成績與他們的潛在特質有特殊的關係。通過項目反應理論建立的項目參數具有恆久性的特點,意味著不同測量量表的分數可以統一。

項目反應理論通過項目反應曲線綜合各種項目分析的資料,使我們綜合直觀地看出項目難度、鑒別度等項目分析的特徵,從而起到指導項目篩選和編製測驗比較分數等作用。

理論概念


項目反應理論(Item Response Theory, IRT)是一系列心理統計學模型的總稱,是針對經典測量理論(Classical Test Theory,簡稱CTT) 的局限性提出來的。IRT是用來分析考試成績或者問卷調查數據的數學模型,這些模型的目標是來確定潛在心理特徵(latent trait)是否可以通過測試題被反應出來,以及測試題和被測試者之間的互動關係。
目前廣泛應用在心理和教育測量領域,基於IRT理論的計算機自適應測試(CAT)是CAA常用的測試方法。潛在特質模型(latent trait model)認為,在被試樣本可觀察到的測試成績和基於該成績不可觀察的特質或能力之間存在著聯繫。

IRT的理論體系(三條基本假設)


– 假設一:能力單維性假設——指組成某個測驗的所有項目都是測量同一潛在特質;
– 假設二:局部獨立性假設——指對某個被試而言,項目間無相關存在;
– 假設三:項目特徵曲線假設——指對被試某項目的正確反映概率與其能力之間的函數關係所作的模型。
IRT最大的優點是題目參數的不變性,即題目參數的估計獨立於被試組。它假定,被試在某一試題上的成績不受他在測驗中其他試題上的成績影響;同時,在試題上各個被試的作答也是彼此獨立的,僅由各被試的潛在特質水平所決定,一個被試的成績不影響另一被試的成績,這就叫做局部獨立性假設。IRT理論所做出的一切推論都必須以局部獨立性假設為前提。

IRT常用的模型


IRT根據受測者回答問題的情況,通過對題目特徵函數的運算,來推測受測者的能力。IRT的題目參數有:難度(difficulty index)---b、區分度(discriminative powder index)---a、和猜測係數(guessing index)---c。根據參數的不同,特徵函數可分為單參數模型(難度)、雙參數模型(難度、區分度)和三參數模型(難度、區分度、猜測參數)等。
IRT 的模型有Logistic模型,Rasch模型,Lord的正態卵形曲線模型等二十餘種。下面以Logistic模型為例進行簡要介紹:
其中:
D=1.702;
θ:受測者能力估計值;
a:題目的區分度,它的值越大說明題目對受測者的區分程度越高;
b:題目的難度;
c:題目的猜測係數,它的值越大,說明不論受測者能力高低,都容易猜對;
P(θ):能力為θ的人答對此題目的概率。
如何選擇恰當的模型進行參數估計是題庫選題的關鍵。不同的模型具有不同的特點,適合於不同條件下的使用。就上面所列的三種模型而言:
單參數模型比較簡單,使用較為方便,但它對項目參數性質的要求較為苛刻;
雙參數模型要求項目的猜測係數較小;
三參數模型雖然具有涵蓋較多項目信息的優點,但亦給參數估計帶來更為複雜的工作。
因此,雖然關於模型選擇標準現在尚無定論,不過,可以從命題方式、記分方式、參數性質、樣本人數、模型的強健性、假設的滿足與否等方面得到一些選題的依據。

參數估計


參數估計是應用IRT的前提。常用極大似然法、貝葉斯等方法進行參數估計,使得所估計出的試題參數不受考生能力分佈的影響,即具有參數不變性的優點。
在項目反應理論中,難度被定義為試題本身固有的特性,不隨考生樣本的變化而變化。該理論認為,如果考生足夠多的話,每道題都會有部分人不能答對,部分人容易答對,部分人費些力氣剛好能夠回答對。試題的難易程度,決定於剛好能夠答對的那部分人的水平高低,水平高的剛好能夠答對該題就難,水平低的也能答上來題就易。這種難度與考生的能力建立在同一個量表上。
在教育與心理測量中應用項目反應理論時,必須進行項目參數與被試能力的估計。有時是已知項目參數,估計能力參數;有時是已知能力參數,估計項目參數;更多的是能力和項目參數都未知,需要同時估計項目參數和能力參數。

項目特徵曲線


項目特徵函數亦稱項目特徵曲線(Item Characteristic Curve,簡稱ICC),是一種根據測試所獲得的考生能力參數和項目特徵參數來表示考生可能答對率(成功率) 的IRT 模式的數學表示方法,同一條ICC所對應的項目參數是唯一的。
IRT研究的一項重要工作,就是確定題目特徵曲線的形態,項目反應模型除了要擬合所選定的題目特徵曲線形態,還應該包括其他一些重要的特徵,否則就不是一個好的模型。
根據特徵函數可畫出項目特徵曲線,下面以典型的Logistic三參數模型的項目特徵曲線為例:
從上圖可以看出:
⑴特徵曲線拐點處的斜率,即斜率的最大值。表示題目的區分度,它的值越大說明題目對受測者的區分程度越高。
⑵特徵曲線上最陡的那一點所對應的θ值,表示題目的難度。
⑶特徵曲線的截距,表示題目的猜測參數,它的值越大,說明不論受測者能力高低,都容易猜對本道題目。
教育測量學研究表明,未經篩選的大被試群體的基本心理素質如智力、能力、人格特點等的分佈,服從正態分佈。所以,理論上被試能力取值範圍為(-∞,+∞),但在實際應用中,取值範圍多取[-3.00,3.00]。
IRT的項目特徵曲線就明確表示出被試能力θ與項目的關係,橫軸θ,縱軸P(θ),它表示具有某種能力θ的被試答對某項目的概率P(θ)。因此,只要已知被試的能力值,就可預測出他們可能答對某個項目的概率。

項目信息函數與測驗信息函數


信息函數是項目反應理論中用以刻畫一個測試或一道試題有效性的工具,它是直接反映測驗分數對學生能力估計精度的指標。項目信息函數(item information function)是IRT 的核心概念,這個基礎性的概念對測驗的應用領域起了諸多影響。信息函數值越大,這種估計就越精確。項目信息函數反映了不同特性(參數)的項目在評價不同被試特質水平時的信息貢獻關係。
測驗信息函數則是項目信息函數的累加和,測驗信息函數反映了整個測驗在評價不同被試特質水平時的信息貢獻關係,測驗提供的信息量越大,則該測驗在評價該被試特質水平時越精確。
測驗和項目信息函數有如下重要性質:
每個項目所提供的信息量是它所測被試特質水平的函數,因而項目及測驗信息函數值均是針對某一被試特質水平來說的,隨被試特質水平取值的不同而變化;
每個項目在某一特質水平處所能提供的信息量還受項目自身特質的影響;區分度越大、猜測可能越小,所能提供的信息量越多;
每個項目所提供的信息不受其他項目的影響,測驗中各項目均獨立地對測驗總信息做貢獻,項目信息函數具有可加性,測驗信息函數等於所含全部項目的信息函數的和;
測驗信息函數在某一特質水平上的值得平方根的倒數,就是該點特質水平估計值的估計標準誤差