標準化考試
標準化考試
標準化考試也稱標準化測驗(Standardized Test),是指根據統一、規範的標準,對考試的各個環節包括測試目的、命題、施測、評分、計分、分數解釋等都按照系統的科學程序組織,從而嚴格控制了誤差的考試。
標準化考試作為教育及心理測量學研究的基本對象,興起於二十世紀初,是近代實證科學應用於考試研究的結果。標準化考試於二十世紀二十年代傳入中國,後由於全民族的抗戰和國內戰爭,發展一度停滯。中華人民共和國成立后,因全面引進蘇聯的五級記分法,標準化考試曾被貼上資本主義的標籤而受到冷落。
對標準化考試的批評和誤解主要來自三個方面:一是民眾和媒體輿論對標準化考試的概念和形式有誤解,往往將標準化等同於“機械化、公式化、概念化”;(南方周末,2005.2.24)二是考試使用機構或政策制定者對考試的誤用(如有的城市將英語四六級與相關人員落戶掛鉤)和普通民眾對考試分數的誤讀;三是考試自身存在較嚴重的質量問題,這些都有待於考試研究者和編製者加強研究,以不斷完善考試技術。
考試是對人的心理特質的測量,是通過對受考者行為樣本的觀察來推測其行為總體。既然是測量就肯定會有誤差。物理測量尚且如此,作為一種心理測量的考試就更容易受到無關因素的干擾。相關理論告訴我們,只有將這些無關因素的影響降到最低,才能保證考試的科學性與公平性。所以,考試的標準化是實現考試科學性與公平性,保證考試質量的重要途徑。
所謂“標準化”,是指將測驗誤差降至最小的過程,包括統一內容、統一指導語、統一時限、統一評分、確立常模、收集信度和效度資料等。(謝小慶,1988)原國家教育委員會考試管理中心主編的《標準化考試》一書,將標準化測驗的各個環節大致分為“試題編製標準化、考試實施標準化、閱卷評分標準化及分數轉化與解釋的標準化”。也有學者認為,需要進行標準化的不止上述環節,除了“在命題、施測、評分和分數解釋四個環節上都嚴格控制了誤差”以外,還必須“實現試題預測、DIF分析和分數等值、合理地確定測驗長度和及格線”等。(徐靜等,2004)總之,標準化考試是要控制考試的每一個環節,使其按照一定的標準來進行,從而將與考試目的無關的誤差因素盡量剔除,使測驗者之間的個體差異在考試分數差異中的比例達到最大。
由於對標準化考試的認識尚不明確,很多人對其產生了誤解。作為考試研究人員,需要更多地向大眾介紹所謂標準化問題。
1. 標準化考試不等於選擇題。提起標準化考試,可能許多人就會想到四選一的多項選擇題,同時有標準的唯一的答案。許多批評者認為這種“標準”的形式扼殺了考生的創造力,也無法考查出考生的真實能力。是一種“機械化、公式化、概念化”的考查方式。其實,標準化考試並不是因為有標準答案而得名,其題型也不僅限於選擇題。
多項選擇題是第一次世界大戰時期奧提斯(Otis, A.S.)發明的,被廣泛地運用於各類標準化測試。選擇題在很大程度上降低了閱卷的成本和評分誤差,而且擴大了試題覆蓋的範圍,減少了取樣誤差,提高了考試的效度。很多人覺得選擇題具體如四選一的形式比較僵化,難能考查考生的真實能力。但其實選擇題“既可以測量一般層次的學習結果,亦可以測量理解、運用、分析、綜合和評價這些高層次能力”,(張敏強,1998)如果說這種題型一定有某些不足的話,那就主要在於題目本身的編製問題。質量低下的選擇題可考查考生死記硬背的學業水平;而質量好的選擇題則可以考查考生較高層次的能力。現在有許多高質量的標準化考試(如托福、SAT等)都還在繼續使用選擇題,說明這種題型具有一定的優勢。
當然,筆者並不否定選擇題有其自身的缺點:
(1)編製良好的選擇題較花費時間,特別是干擾項的設立。
(2)這種題型較難測量以發散為思維特徵的重要能力,如表達、創造能力等。
(3)無法測量學生的思維過程。
(4)這種題型有被試者猜測正確作答之嫌疑。(張敏強,1998)
因此,標準化考試中需要添加其他客觀題型,也需要添加問答、寫作等主觀題型,以全面考查被試人的各方面能力。
2. 主觀題也可以實現標準化。一般來說,相對於客觀題,主觀性試題較難實現標準化。這是因為第一,從命題環節看,主觀題所需要的答題時間較長,題目數量較少,命題時容易出現取樣誤差,從而影響考試效度。例如,一篇題為“網際網路時代”的作文就可能對沒有接觸過電腦和網際網路的考生造成歧視。
第二,從閱卷環節看,容易產生評分誤差。因為主觀性試題一般不存在標準答案,而只有評分標準。不同評分者對評分標準的理解會有所差別,對於同一份答卷給出的分數甚至相差較遠。這就一方面要求考試機構對評分員其中主要成員應進行嚴格的培訓,通過試評使他們對評分標準的理解盡量保持一致;另一方面,必然要求對評分者的閱卷質量進行監控,通過控制,以降低主觀性試題誤差,使其真正實現“標準化”。
3. 標準化考試的目的在於提高效率。標準化考試和現代教育一樣,是大規模生產的必然結果。此前有一錯誤觀念,認為學校教育就是要把所有學生放在同一條生產線上,這種想法實際上誇大了學生的共性而忽略了學生的個性。但是在現代社會,學校教育可以提高教育的效率,使得幾乎所有社會成員都能享受以前少部分人能夠享受的特權。為此,一定的犧牲是值得的。實際上,標準化考試在某種意義上就是一個犧牲一定效果而獲得效率的行為。因為有了標準化考試,就可以大大提高評價的效率,降低評價的成本。為此,一定的犧牲在所難免。考試可能對部分人無效,或者不公平,但是從社會整體來說,考試卻是有效的,也是公平的。如果將來社會資源極度豐富,不用考慮時間、成本等因素,標準化考試或許會被更為準確的面試或長期觀察所取代,但近期實際情況證實,在社會和自然資源相對發達的美國,也難實現。因此在目前情況下,尤其在我國,還不能對標準化考試抱有過高的期望,認為考試就是一個完美的選拔制度。就是說,應該也只能把考試作為提高人才選拔效率的一種手段,而且只能是一種輔助手段。
眾所皆知,考試的目的是通過對考試分數的解釋,為考試使用者提供決策參考。此中,如果對考試誤用,那麼就是對考試的分數做出了不恰當的解釋。由此,這種不恰當解釋就會給決策產生影響,以致損害考試的效度。所以,我們敢說,世上沒有低效度的考試,只有低效度的分數解釋。
目前,我國不恰當的分數解釋主要有如下幾種:
1. 缺乏分數參照體系。目前,我國關於考試的認知和執行過程中,一般在對測驗分數做出常模參照解釋的時候,只是孤立地給出分數,而不給出常模的相關信息,這樣做的結果是無法對分數做出恰當的解釋,從而影響決策。例如一位考生在一次考試中取得了80分的成績,嚴格說來,僅憑這個分數是無法對這一考生的表現做出任何判斷的。因為就這一成績而言,他可能是考得最好的一位,也可能是考得最差的一位。但如果知道了平均分和標準差這些對常模做出描述的參數,那麼,就可以對他的成績做出判斷。如韋氏智商分數就是以100為平均分,15為標準差。如果一個人的智商分數是115,就說明這個人比平均分數高出了一個標準差,即他的智商比84%左右的人要高。這樣的信息顯然更有利於決策者做出決定。
2. 缺乏對分數必要的描述。在對測驗分數作出標準參照解釋的時候,倘若只報告分數,而不對考生所達到的水平作出必要的描述,那麼,決策者就無法獲取足夠的信息。何況在通常情況下,人們對測驗作出標準參照解釋的時候,平均分和標準差並不重要,因而考試使用者也不怎麼關心。重要的是關於其標準或及格線的設定,以及對達到這一標準的被試能力的描述。這樣,決策者關於其了解考生能力具備的基礎上,知道考生能從事哪些方面的工作。美國ETS開發的TOEIC考試在報告成績時對考生的“能做”(can do)就作了非常詳盡的描述,這樣考試決策者就可以對考生的能力有更加清晰的了解。
3. 過分誇大標準化考試的功能。任何考試的功能都是有限的,所測查的都是考生某一個或者某幾個方面的能力。考試只有被用來評價它能夠測查的方面時,才能夠發揮其作用,否則就是無效的。數學考試只能被用來評價考生的數學能力,如果被用來評價考生的語文能力,不但無效,且也是荒唐的。此前,我國不少高等院校將英語四六級考試成績與畢業證書掛鉤,這種做法實際上默認了一個合格的大學畢業生必須具備良好的英語水平。雖然中國現在與世界的聯繫越來越緊密,國際交流也日益頻繁,但是也並不是所有的大學畢業生都需要參與國際交流。對於有些畢業生來說,或許在他的工作中很少會用到英語。對於這些人,有必要一定要讓他們具備良好的英語水平嗎?試想一名專業成績優秀的大學畢業生因為沒有通過英語四六級考試而不能獲得畢業證書,從而與能夠發揮自己專業技能的崗位失之交臂,難道說不是一件令人遺憾的事么。因此,這些院校將畢業證書與英語四六級掛鉤的做法,其實是對英語四六級考試的誤用。為此,也有人批評英語四六級考試,認為應該將其取消。這種觀點雖然太過極端,但也從一定程度上說明,在決定一個人命運的相關考試中,我們需要對英語四六級考試進行適當的分數解釋,使其在對學生的英語能力進行評價時發揮這類考試的應有功效。
所謂標準化考試,顧名思義,就是按照標準進行的考試。那麼按什麼標準呢?美國教育研究會、心理學會和教育測量委員會聯合制定了美國《教育與心理測驗標準》,美國的標準化考試從編製、施測到評分、質量分析都需要按照這個《標準》。而中國現在沒有自己的“標準”,因此,嚴格地說,中國現階段沒有自己的標準化考試。在許多方面只能參考借鑒別國的經驗。
中國是考試的故鄉,但在現代考試技術上卻大大落後於西方。在19世紀末20世紀初這一段時期,西方的實驗心理學和心理測驗的發展推動了考試的發展。從1909年到1915年,教育測驗逐漸增多,測驗研究進入了興盛時期。1922年斯坦福成就測試問世並逐漸風行。當時,不僅學科測驗有了發展,而且診斷測試和練習測驗編製也陸續問世,形成了利用教育測量來進行教育調查研究的風氣。相比較,我國關於考試的研究起步較晚,教育和心理測量領域真正得到重視還是在改革開放以後。而在上個世紀後期,由於科學技術的發展,特別是計算機的普及,使得西方考試技術領域有了迅速的發展。除了傳統的經典測量理論以外,項目反應理論和概化理論也得到了廣泛的應用。與此同時,出現了計算機自適應性測試(CAT)、電子評分員(E-rater)及真實性測試(authentic test)等許多新的測驗方式。考試技術的發展日新月異,這一切,無不說明,我國的考試研究還必需進行大量的拓寬性工作。
在我國,每年都在舉辦著成千上萬的各種類型的考試。這些考試的規模不可謂不大,其利害也不可謂不高。但這些考試真正實現標準化卻可謂少之又少。究其原因,筆者認為可以歸結為觀念和體制兩個方面:
首先,從觀念方面分析,中國的廣大民眾對考試有一種“膜拜”的心理,普遍認為考試一定是神聖的、公平的。如果因為考試結果比其他人差而失去某些機會,必然是心服口服。這種心理或許源於對權威的服從,或許是被考試的形式所“蒙蔽”。但不管怎麼說,考試的形式不僅保證了考試的信度,而且保證了考試的效度,即一個考試是否真的能夠考查出試卷編製者想要考查的能力。這種心理使得人們幾乎從不對考試的科學性和有效性進行質疑。考試的形式使人們看到的只是形式上的平等和公平,卻忽視了實際上可能存在的不平等和不公平。其次,從體制方面來分析,中國的考試大多數都是由政府部門或隸屬於政府部門的機構來組織的,因此,這些部門或機構可以通過行政力量來“培育”或“分割”市場。在這種情況下,不同的考試能否生存或壯大不取決於考試本身的質量高低,而是從很大程度上取決於行政命令。即便是對考試的質量,也缺乏有效的監督,往往只有通過考試研發人員的責任心來實現。到頭來,在我國社會主義市場經濟的大趨勢下,是否也應該把考試行業放在市場中,讓考試經受實踐的檢驗,讓不同的考試在相互競爭中得到提高,觀念和體製成為影響我國考試行業發展的重要原因。而這兩方面本身也相互影響。政府部門組織的考試會因其“官方”身份而增加考試的“權威性”,於是民眾更加不會懷疑其科學性和有效性。與此相伴,民眾的篤信不疑必然從另一方面削減了對考試質量的監督,使得考試的組織機構在不經意間放鬆對考試質量的追求。如此惡性循環,必然影響標準化考試的發展。為此,我們必須首先大力宣傳有關標準化考試的觀念,提高廣大民眾對考試的認知,進而推動考試體制的逐步變革。這樣,才能不斷提高標準化考試的推行,真正實現利用考試達到人才評估的目的。
標準化考試作為一種人才評估手段,在中國正發揮著越來越大的作用,然而標準化考試也只不過是人才評估的手段之一。因此,我們既不能低估標準化考試的作用,也不能高估其作用。那種對考試“膜拜”的心理和將考試“一棒子打死”的態度,都不可取。標準化考試的推行和真正落實,還有一個漫長的形成和發展過程。