傾向評分匹配
1983年被提出的統計學方法
傾向評分匹配,簡稱PSM,是使用非實驗數據或觀測數據進行干預效應分析的一類統計方法。傾向得分匹配的理論框架是“反事實推斷模型”。“反事實推斷模型”假定任何因果分析的研究對象都有兩種條件下的結果:觀測到的和未被觀測到的結果。如果我們說“A是導致B的原因”,用的就是一種“事實陳述法”。
傾向評分匹配(Propensity Score Matching,簡稱PSM)是一種統計學方法,用於處理觀察研究(Observational Study)的數據。在觀察研究中,由於種種原因,數據偏差(bias)和混雜變數(confounding variable)較多,傾向評分匹配的方法正是為了減少這些偏差和混雜變數的影響,以便對實驗組和對照組進行更合理的比較。這種方法最早由Paul Rosenbaum和Donald Rubin在1983年提出,一般常用於醫學、公共衛生、經濟學等領域。以公共衛生學為例,假設研究問題是吸煙對於大眾健康的影響,研究人員常常得到的數據是觀察研究數據,而不是隨機對照實驗數據(Randomized Controlled Trial data),因為吸煙者的行為和結果,以及不吸煙者的行為和結果,是很容易觀察到的。但如果要進行隨機對照實驗,招收大量被試,然後隨機分配到吸煙組和不吸煙組,這種實驗設計不太容易實現,也並不符合科研倫理。這種情況下觀察研究是最合適的研究方法。但是面對最容易獲得的觀察研究數據,如果不加調整,很容易獲得錯誤的結論,比如拿吸煙組健康狀況最好的一些人和不吸煙組健康狀況最不好的一些人作對比,得出吸煙對於健康並無負面影響的結論。從統計學角度分析原因,這是因為觀察研究並未採用隨機分組的方法,無法基於大數定理的作用,在實驗組和對照組之間削弱混雜變數的影響,很容易產生系統性的偏差。傾向評分匹配就是用來解決這個問題,消除組別之間的干擾因素。
傾向評分匹配法適用於兩類情形。
第一,在觀察研究中,對照組與實驗組中可直接比較的個體數量很少。在這種情形下,實驗組和對照組的交集很小,比如治療組健康狀況最好的10%人群與非治療組健康狀況最差的10%人群是相似的,如果將這兩個重合的子集進行比較,就會得出非常偏倚的結論。
第二,由於衡量個體特徵的參數很多,所以想從對照組中選出一個跟實驗組在各項參數上都相同或相近的子集作對比變得非常困難。在一般的匹配方法中,我們只需要控制一兩個變數(如年齡、性別等)即可,就可以很容易從對照組中選出一個擁有相同特徵的子集,以便與實驗組進行對比。但是在某型情形下,衡量個體特徵的變數會非常多,這時想選出一個理想的子集變得非常困難。經常出現的情形是,控制了某些變數,但是在其他變數上差異很大,以至於無法將實驗組和對照組進行比較。
傾向評分匹配通過使用邏輯回歸模型來決定評分。