目標參照測驗
目標參照測驗
標準參照測驗(Criterion-Referenced Test)又稱準則參照測驗。一種精心編製的,在一定的行為領域上按照具體的行為標準水平對被試的測驗結果作出直接解釋的測驗。
它為人們提供了有關被試是否達到某種行為標準水平或要求的信息,是一種與以經典測驗理論為基礎的常模參照測驗相對的測驗類型。至今尚無一個統一、公認的定義,但就一般意義而言,戈萊賽1971年對於目標參照測驗的描述與界定較為廣泛為人接受:所謂目標參照測驗,是根據某一明確界定的內容範圍而縝密編製的測驗,並且,被試在測驗中所得結果,也是根據某一明確界定的行為標準直接進行解釋的。
標準參照測驗思想的源淵可以追溯得較遠,但是標準參照測驗理論的產生與發展則是本世紀50年代以後的事情。弗拉納根在1951和埃貝爾在1962年都比較過兩種信息的價值,這兩種信息就是:從一個具體的領域或內容中作出推理被試的信息;有關一個團體中等第關係的被試的信息。但是"標準參照測驗"術語的明確提出則要歸功于格拉澤和克勞斯(1962),而對該術語的明確解釋則是格拉澤的貢獻。格拉澤於1963年在《美國心理學家》雜誌上撰文論述了這兩種信息的定義,並進行了比較。然而由於格拉澤論述的晦澀和深奧,以及這種新思想的陌生,因而這種思想未能立即轉化為實踐,正如波帕姆和赫塞克的評述:"除了在技術辭彙中增加了兩個新概念之外,在測量實踐中並沒有對它們進行區分。"
1969年波帕姆和赫塞克在《教育測量雜誌》上發表了《標準參照測驗的應用》一文,此文不僅評述了以前的發展狀況,而且進一步闡述了格拉澤的思想,並且列舉了在教學決策中常模參照和標準參照兩種方法和利和弊。這篇論文引起了教育和心理測量專家們的廣泛注意,從而使得70年代成為標準參照測驗贏得測量待業關注的10年。這可從兩個統計數據中得到印證:格拉澤1963年發表的論文至1986年8月止,已被124篇文章引用,其中只有10篇是1971年以前發表的;從1967~1978年20年間,美國教育資料情報中心(ERIC)收集到了1913篇有關標準參照測驗研究課題的論文。
70年代期間,教育與心理測量專家對標準參照測驗的概念進行了進一步探討,而且對該測驗的編製原理及方法、標準水平的確立方法、信度估計及效度驗證等方面進行了研究,並提出了一系列數學化模型。1980年,標準參照測驗領域已變得十分複雜,乃至尼特克撰寫了長達24頁的評述性論文,以幫助我們區分標準參照測驗不同類型的差異。
自1968年以後,標準參照測驗的實踐也得到了發展。波帕姆及其同事們構建和散發了許多標準參照測驗,每一套都與一套可測量的(或詳述的)目標相聯繫。這些測驗在許多課堂中得到了使用,並使課堂使用者成為標準參照測驗的狂熱支持者。1982年有調查表明,美國全國教育學會發言人明確表示,他們寧可要標準參照測驗而不要常模參照測驗,許多州立教育部門也編製了與州所設立的課程相關聯的標準參照測驗。
標準參照測驗從興起到發展之所以如此迅速,有其深刻的原因。本世紀五六十年代美國的教育改革轟轟烈烈、聲勢浩大,人們提出"為掌握而教學"、"個別化教學"等教學改革主張。為了能有效地實現這些改革,教師必須能為某種知識、技能的"掌握"下定義,並且在實踐中能識別學生是否已達到了掌握和程度。這就對傳統的測量方法提出了挑戰。此時,如果成績評定準則仍然是相對性、競爭性,即根據學生在常模組內的相對位置來判斷他的成績,則雖然學生在團體組內的等第次序變化也能為說明其學習是否進步提供證據,但如果把這種變化僅僅看作是競爭性的,那麼這種成績評定準則可能會摧毀學生的學習和發展。其原因在於:為了檢查學生對某學科內容的掌握情況,如採用以傳統的區分度指數為根據的常模參照測驗的選題程序編製測驗,則會將人們本來希望在測驗中包含的題目剔除,因而不能實現測量目的;同時,常模參照測驗的內容領域通常較廣,難以確切說出被試實際掌握了多少,其分數結果不宜用來判別學生是否已達到所希望的要求。因而,人們提出了絕對標準的成績評定思想,這是一種排除相對性的成績評定準則,可鼓勵學生經過努力都能達到這一標準。這樣,新型的測驗類型--標準參照測驗應運而生,且由於其有著傳統的常模參照測驗所不具有的某些優點,如各個被試的成績水平能直接說明其具有的真實水平狀況等等,百獲得迅速發展。
標準參照測驗的主要目的在於確定被試對某一知識或技能的掌握的真實狀況,因而其編製的基本原則為:(1)測量目標必須明確和具體,並且在一測驗中不能包含過多的測量目標。測量目標模糊或過多,都不利於測驗結果精確描述被試的知識或能力的真實狀況。(2)測題必須與測量目標之間具有較高的一致性。每一測驗題目的反應必須能體現出所要測量的測量目標上的得為表現。同時,測量同一目標的測題數量既要足夠,又要具有較高的同質性。但在測量不同目標的測驗題目之間不要求有同質性。
標準參照測驗同樣需要難度、區分度等參數進行項目分析,但是這些參數的含義已區別於常模參照測驗中難度、區分度的含義。
難度已不能簡單地解釋成題目的難易程度或題目的通過率,而必須理解為測驗者對測驗內容要求的高低,它通過測量目標反映出來。測驗者對測驗內容要求越高,測題的難度相應地也越大,反之則越低。在題目分析的過程中常採用掌握組中的通過率及未掌握組中的通過率來表示,因而難度係數值大小的選擇既可遵循統一的標準,又可反映被試對測量目標掌握的程度。
區分度反映的則是測題對區別掌握與未掌握兩類被試的能力,而非籠統地指對被試能力的鑒別程度。由於人們通常將被試的掌握或未掌握的原因歸咎於教學的因素,幫"教學敏感性係數"常被採用為項目區分度的一種指數,並且人們提出了多種教學敏感性係數。常見的有D指數、B指數等。
標準參照測驗的分數解釋不依賴於測驗組的常模,而是根據測驗者編製通常在測驗實施之前就制訂的及格的標準水平,顯然,被試是否及格不依賴於同伴的測驗結果,完全依賴於其自身的行為表現結果。
及格的標準水平是測驗分數量表上的某個點,可以根據這一點在量表上的位置,將被試劃分成對測量內容具有不同熟練掌握水平的不同類型。及格的標準水平是測驗結果解釋的直接依據,如何制訂出合理的及格標準水平,是一個需要測驗編製者深思熟慮的問題。因為這種標準水平的確立包含了較多的人的主觀性成分。至目前為止,人們已紛紛提出了許多種確立及格的標準水平的方法。
效度是衡量測驗有效性的重要指標,通常它指測驗對於它所欲測量的屬性能夠測到的程度。同樣,對於標準參照測驗而言,需要評定其內容效度、效標關聯效度以及結構效度。但強調的側重點不同於以往。標準參照測驗更側重於對其內容效度的要求。
內容效度指測驗內容對所欲測量內容的代表性程度,因而考察標準參照測驗的內容效度主要從以下兩方面入手:測驗題目的正確性和測驗題目的代表性。測題的正確性是指測題正確地反映測量目標所欲測量的知識、技能的程度,對它的檢查主要包括:測題的技術質量和測題與測量目標之間的一致性程度。對前者的要求相一致,人們較易掌握。而對測題與測量目標之間一致性程度的評定則較困難,通常只能採用一些經驗方法加以評判,有專家評判法和學生評判法兩大類方法。測題的代表性要求組成標準參照測驗的測題必須對測驗領域總體有一定的代表性,從而使測驗具有較高的內容效度。為了保證測題的代表性,標準參照測驗編製中往往需要制訂雙向細目表;同時人們也提出了利用"重複實驗"方法,來檢查標準參照測驗中測題的代表性。
除了確保標準參照測驗的內容效度之外,還必須對標準參照測驗的效標關聯效度和結構效度加以驗證。因為內容效並儘管非常重要,但它只是關心測驗內容而不是測驗分數,它並不隨著被試組的不同或時間的變化而變化,而測驗分數解釋的正確性卻隨著測驗情形的變化而變化,因而僅靠測驗的內容效度並不能確保測驗的有效性。效標關聯效度的驗證方法仍可沿用以往的常用方法,關鍵問題仍在於效標的選擇及其效標的正確性上。
標準參照測驗中的結構效度驗證是指從理論上證明測驗分數解釋的合理性。由於標準參照測驗的內容效度看上支似乎提供了足夠的效度證據,同質性的標準參照測驗分數分佈限制了用相關性進行結構效度驗證的途徑,因而標準參照測驗理論中的結構效度驗證的途徑,因而標準參照測驗理論中的結構效度驗證的研究至今仍是一個較薄弱的領域,還未出現一種令大多數人能接受的有效的結構效度驗證方法。漢布爾頓曾提出使用格特曼量圖分析和因素分析法進行結構效度驗證的可能。作為結構效度的一種具體類別,決策效度是指根據標準參照測驗分數對被試所作出的掌握分類決策的正確性。其檢查過程就是收集掌握與未掌握分類決策正確性的證據,可用正確分類或不正確分類的概率表示,但關鍵的問題在玩弄:其一,如何才能證明確立的分類標準是正確的;其二,怎樣才能知道被試的真實狀態,即掌握還是未掌握。
總體上說來,標準測驗的效度驗證理論還未發展成熟和完善,有待於進一步的研究和拓廣、深化。
至目前為止,研究文獻中已提供了較多的標準測驗信度估計方法,這些方法與常模參照測驗中的信度估計方法完全不同。通常將標準參照測驗信度估計方法分為三大類:
第一,決策一致性信度。標準參照測驗的目的之一在於票據標準水平,將被試劃分成不同的類型,如掌握與未掌握,這時可以用掌握分類決策的一致性指數表示標準參照測驗的信度。計算決策一致性信度的方法很多,既可以利用兩個平等形式的複本測驗或再測驗來估計,也可以不需要複測或再測,直接利用一次測驗結果估計決策一致性信度。通常採用PO及u表示決策一致性信度係數,但對PO及u的估計有許多不同的方法,這一方面取決於測驗的條件,另一方面取決於對一致性信度精確性的要求。其中哈伊恩方法和薩伯考維克方法等尤為有用。
第二、領域分數估計的信度。標準參照測驗的另一重要目的在於測量學生對測驗內容掌握的多少。一般說來,測題是從測量該內容的所有題目中抽樣出來的,所以根據被試的測驗分數推測其在整個內容領域上的領域分數(即真分數)的過程中,必然會涉及測驗分數估計的可靠性程度,因而必須估計領域分數估計的信度。這種信度的估計既可以採用測量的標準誤估計,如米爾曼和漢布爾頓、克龍巴赫等提出的估計方法,同時也可以採用概化係數ρX來表示。前者反映的是各個體領域分數估計的可靠性,後者體現了總體上反映所有被試的領域分數估計的可靠性。
第三,誤差平方損失一致性係數。當運用及格的標準水平對被試進行掌握分類時,處理分類誤差有兩種情況:第一種情況是,在作出分類決策時,不論被試的觀察分數與標準水平的遠近情況如何,一律將誤差視為具有同等嚴重性。在計算決策一致性信度時,就以這種方式處理誤差。第二種情況是,認為對遠離標準水平的被試作出錯誤分類的嚴重性比對靠近標準水平的被試作出錯誤分類的嚴重性要大。人們通常將這種描述分數與標準水平的離差平方的信度係數稱作為誤差平方損失一致性係數。常見的估計方法有利文斯頓提出的K2(X,T)係數和布倫納與凱恩提出的M(C)係數。這兩種係數的估計均採用方差分析來實現。
測驗的標準化是經典測驗理論中方法體系的一個重要方面。對於標準參照測驗而言,同樣需要對它實現標準化,從而提高測驗分數解釋的正確性。標準參照測驗的標準化同樣包括以下幾個方面:(1)測驗編製過程的標準化,即為測驗編製者提供統一的、精確界定的測量目標,測驗題目都是測量內容的典型代表物,測題具有較高的技術質量等等;(2)測驗實施的標準化,即為被試提供相同的指導語,測驗的外在物理條件相一致等等;(3)測驗評分的標準化,即評分應有統一的評分標準,排除評分者的主觀偏見;(4)測驗分數解釋的標準化,即評判各被試成績水平的及格標準水平必須始終如一。
在過去的20多年間,標準參照測驗研究雖然取得了較大的發展,並較多在轉化為實踐,但是由於研究點主要集中在常模參照測驗和標準參照測驗之間比較和標準參照測驗理論上,因而其方法還處於一個相對薄弱的境地。從目前整個心理和教育測量領域的發展來看,標準參照測驗的研究將呈現出以下幾個趨勢:
1.項目反應理論及方法將越多地應用到研究標準參照測驗領域中。例如,項目反應模型運用於測題的選擇,項目反應信息函數運用於項目分析,項目反應理論中能力參數的估計用於標準參照測驗分數的估計等等。項目反應理論在標準參照測驗領域中的應用,很可能為標準參照測驗理論及方法的成熟和完善作出傑出的貢獻。
2.標準參照測驗的研究將會越來越多地引進數理方法。事實也已表明,數理方法(如因素分析、方差分析等)的引入豐富和充實了標準參照測驗的理論。將來諸如貝葉斯估計等方法也將進入標準參照測驗研究領域。標準參照測驗中效度驗證等問題必須藉助於更多的數理方法才能趨於成熟。
3.與整個測量領域相一致的是,計算機技術也將在標準參照測驗領域大展宏釁。這涉及標準參照測驗題目的編製、選擇,測驗的組合,測驗的實施及其評分等。
4.標準參照測驗與常模參照測驗之間的關係不可能出現誰戰勝誰的局面,它們只是兩種不同類型的測驗而已,在研究者之間、實踐者之間將達成一致的共識。即它們各自具有自身的優、缺點,在不同的情形中發揮各自的優點。在教育測量領域中可能越來越多地採用標準參照測驗形式,但在心理測量領域中,常模參照測驗形式可能仍占極大多數。