概化理論
概化理論
概化理論是測量理論中最重要的三種理論之一。一般將測量理論分為經典測量理論(CTT)、概化理論(GT)和項目反應理論(IRT)三大類,或稱三種理論模型。概化理論從20世紀60年代誕生到1976年提出多元GT,在理論和方法上不斷發展,通過改進經典測驗理論的數學模型、引進方差分析技術等方法,把分數變異細分為多種來源,為測驗決策提供了系統的理論和方法。80年代後期GT迅速發展,與IRT和CTT形成三足鼎立的局面三種測量理論構成了現代人才測評的理論基石。三種理論各有長短,經典理論容易理解、操作簡單,體系完整,在現實中更易於被接受,因為適應面很廣。概化理論主要解決測量誤差的問題,對於分析測量的信度有一定優勢。項目反應理論數理邏輯嚴密,測量精度高,但對使用者的素質和客觀條件都有很高的要求,故應用的範圍受到限制。在人才測評實踐中,要根據具體的測評對象、目的和具備的條件選擇恰當的理論來指導測評工作。當然如果能將幾種測量理論的優勢結合起來則會獲得更好的測評結果。
凡測量都有誤差,誤差可能來自測量工具的不標準或不適合所測量的對象,也可能來自工具的使用者沒有掌握要領,也可能是測量條件和環境所造成,也可能是測量對象不合作所引起。總之產生測量誤差的原因是多種多樣的,而CTT理論僅以一個E就概括了所有的誤差,並不能指明哪種誤差或在總誤差中各種誤差的相對大小如何。這樣對於測量工具和程序的改革沒有明確的指導意義,只能根據主試自己的理解去控制一些因素,針對性並不強。鑒於此種情況,二十世紀六十至七十年代初,克倫巴赫(Cronbach)等人提出了概化理論簡稱GT理論。
任何測量都處在一定的情境關係之中,應該從測量的情境關係中具體地考察測量工作,提出了多種真分數與多種不同的信度係數的觀念,並設計了一套方法去系統辯明與實驗性研究多種誤差方差的來源。並用“全域分數”(Universe Score)代替“真分數”(True Score),用“概括化係數,G係數”(Generalizability Coefficent)代替了“信度”(Reliabilty)。
概化理論認為,測量的總方差可以分解為代表目標測量的方差成分和構成誤差的種種方差成分。測量工作中要加以認識和予應用的心理特質水平是測量目標。而構成測量條件與具體情境關係的因素,稱為測量側面(Facets of Measurement)。如學生閱讀能力測驗,其目的是對學生閱讀能力的測量,因此,閱讀能力就成為測量目標,除此外試題的水平和評分者等因素也會影響測驗的總變異。這兩個因素就是測量側面。這裡對學生閱讀能力的測量是在雙側面情境的條件下進行的。測量側面中的單個事例叫側面的水平,如有兩個評分者甲和乙,則評分者這一側面就有兩個水平。測量側面又分為隨機側面和固定側面。隨機側面是指測量側面中所包含的各水平中是類似水平的隨機樣本,而非固定不變的側面,如大規模考試中評分者每次都有可能不同,由這樣變化的評分者所組成的測量側面就稱為隨機側面。固定側面是指在各次實施中測量側面的所在水平一直保持不變的測量側面,如標準化的心理測驗中測驗的項目總是一樣,這樣的側面就叫固定側面。因此,進行測驗的標準化就是對某些測量側面進行固定。固定測量側面可以減少測量誤差,但卻會使測量目標變得更為局限。比如,把閱讀理解題定為對科技說明文,這時,所測的特質就不再是一般的閱讀理解能力,而是特定的對科技說明文的理解能力了。這樣,測驗所得的分數就不能再推廣到原來那麼寬廣的範圍了。
概化理論強調,測量目標是具體的,並不是絕對固定不變的。因而全域分數也就不固定,可以有多種。一方面,當固定側面時,側面本身會轉化為測量目標的一部分(如對一般閱讀理解能力的測量轉變為對科技說明文的測量),測量目標要局限化;另一方面,當測量中考察目的與應用需要改變時,測量目標對象就可能完全轉移。比如,當作文考試結果是要對考生作判斷時,測量目標就是考生的作文能力,若要把評分嚴與評分寬的評分者區分開,評分者的能力就成了測量目標,也即測量目標就完全發生了轉移。顯然,測量目標不同時,標誌測量目標的分數也就不同。測量目標在具體關係條件下的分數叫全域分數。這樣,有時對同一批測量資料來說,當測量工作的具體關係變化時全域分數也會變。即同一測驗資料就可能有多種全域分數。
概化理論把全域分數方差對總變差的比稱為為概括力係數(簡稱G係數)。而總方差可以分成全域分數方差(δ2 (p)和誤差分數方差(δ2(δ)),如果測驗是常模參照性測驗,則G係數E2ρ是評價測驗穩定性程度的最佳指標:
即: E2ρ=(δ2(p))/[ δ2(p) +(δ2(δ))]
若該測驗是標準參照性測驗,則其依存性j指標是測驗穩定一致性的最好指標。
j=(δ2(p))/[ δ2(p) +(δ2(△))]
上兩式中,誤差方差δ2(δ)可能是很多項的和,如上例中考生的閱讀理解能力的方差是標誌測量目標的方差,即為全域分數方差記為(δ2(p)),而試題、評分者及三個主效應間的交互作用方差(共有7種方差成分)都不應包括在全域分數方差之中,作為誤差方差(δ2(δ))的一部分,是構成總方差的成分之一。由此可見,當全域分數方差不變,而誤差分數方差增大時,概括力係數值降低,信度降低。反之,當全域分數方差增大,而誤差分數方差不變,則概括力係數增大,信度提高。所以,隨著測量情境關係的變化,測量目標與側面的變動,概括力係數即信度也就會不同。同一批資料就可能有多種不同含義與取值的概括力係數。一般說來,增大概括力係數的方法有兩種:第一種是,固定測量側面(如固定試題)。第二種是增加側面所包含的水平數(如增加試題或評分者數目)。
概化理論是用方差分析的方法來全面估計出各種方差成分的相對大小,並可直接比較其大小。雖然真分數理論也可以分別地估出某一方差成分的大小,如代表試題側面的內部一致性係數,代表評分者側面的評分者信度等,正因為是單獨估出的,這些值之間不能直接比較,也只有對主效應作估計,而不能對交互作用進行估計。而概化理論卻能做到這一點。它既能估計出主效應,也能估計出交互作用效應,並能對各估計值的大小進行直接比較。在概化理論中,理論估出各方差成分相對大小的過程,叫概化理論的概括分研究階段或稱G-研究階段。
概化理論並不內靜止地分析各種誤差來源,還要在G-研究的基礎上,通過實驗性研究,進一步考察不同測驗設計條件下的概括力係數的變化狀況,如固定側面或增加側面水平下的變化狀況,從而探求到最佳的控制誤差的方法,作出最佳的設計決策,從而改進測驗的內容、方式方法提供了有價值的信息。這一階段稱作決策研究或稱D-研究階段。
GT在研究測量誤差方面有更大的優越性,它能針對不同測量情境估計測量誤差的多種來源,為改善測驗,提高測量質量有用的信息。其缺陷是統計計算相當繁雜,如果藉助一些統計分析軟體可以解決這一問題。GT理論目前在我國還處於實驗研究階段,在面試、考核等主觀性測評中有一些應用。