sem
多元數據分析的重要工具
結徠構方程模型是基於變數的協方差矩陣來分析變數之間關係的一種統計方法,是多元數據分析的重要工具。
結構方程模型分析:結構方程模型是一種建立、估計和檢驗因果關係模型的方法。模型中既包含有可觀測的顯在變數,也可能包含無法直接觀測的潛在變數。
SEM簡單介紹
因果關係:SEM一般用於建立因果關係模型,但是本身卻並不能闡明模型的因果關係。
一般應用於:測量錯誤、錯漏的數據、中介模型(mediationmodel)、差異分析。
歷史:SEM包括了回歸分析,路徑分析(wright,1921),驗證性因子分析(confirmatoryfactoranalysis)(Joreskog,1969).
SEM也被稱為協方差結構模型(covariancestructuremodelling),協方差結構分析和因果模型。
因果關係:
sem[結構方程模型]
舉一個簡單的例子:
sem[結構方程模型]
如果上一個因果關係成立,那將會形成一個因果機制,也許會出現這樣的結構:
sem[結構方程模型]
這裡我又舉另外一個例子,回歸模型
sem[結構方程模型]
我們在舉另外一個例子“路徑分析”
sem[結構方程模型]
在這裡我們總結一下:
回歸分析簡單地說就是:X真的影響Y嗎?
路徑分析:為什麼/如何X會影響Y?是通過其他潛在變數Z來達到的嗎?例子:刷牙(X)減少蛀牙(Y)通過減少細菌的方法(Z)。------測量和測試中介變數(例如上圖中的Z變數)可以幫助評估因果假設。
在這裡要提一下因素模型(factormodel)
sem[結構方程模型]
在這個模型當中,各個變數有可能由於受到未被觀察到的變數所影響,變得相互有內在的聯繫,一般來說那些變數都很複雜、混亂,而且很多變數是不能直接被觀察到的。
舉個例子:“保齡球俱樂部的會員卡”和“本地報紙閱讀”,是被觀察到的變數,而“社會資產”則是未被觀察到的變數。另一個例子:“房屋立法”和“異族通婚”是被觀察到的變數,而“種族偏見”是未被觀察到的變數。
這些被觀察到的變數(y1--y4)也有可能由一個潛在的變數(F)所影響。
很多心理、教育、社會等概念,均難以直接準確測量,這種變數稱為潛變數(latentvariable),如智力、學習動機、家庭社會經濟地位等等。因此只能用一些外顯指標(observableindicators),去間接測量這些潛變數。傳統的統計方法不能有效處理這些潛變數,而結構方程模型則能同時處理潛變數及其指標。傳統的線性回歸分析容許因變數存在測量誤差,但是要假設自變數是沒有誤差的。
結構方程模型常用於驗證性因子分析、高階因子分析、路徑及因果分析、多時段設計、單形模型及多組比較等。結構方程模型常用的分析軟體有LISREL、Amos、EQS、MPlus。結構方程模型可分為測量模型和結構模型。測量模型是指指標和變數之間的關係。結構模型是指潛變數之間的關係。
1.同時處理多個因變數
結構方程分析可同時考慮並處理多個因變數。在回歸分析或路徑分析中,即使統計結果的圖表中展示多個因變數,在計算回歸係數或路徑係數時,仍是對每個因變數逐一計算。所以圖表看似對多個因變數同時考慮,但在計算對某一個因變數的影響或關係時,都忽略了其他因變數的存在及其影響。
2.容許自變數和因變數含測量誤差
態度、行為等變數,往往含有誤差,也不能簡單地用單一指標測量。結構方程分析容許自變數和因變數均含測量誤差。變數也可用多個指標測量。用傳統方法計算的潛變數間相關係數與用結構方程分析計算的潛變數間相關係數,可能相差很大。
3.同時估計因子結構和因子關係
假設要了解潛變數之間的相關程度,每個潛變數者用多個指標或題目測量,一個常用的做法是對每個潛變數先用因子分析計算潛變數(即因子)與題目的關係(即因子負荷),進而得到因子得分,作為潛變數的觀測值,然後再計算因子得分,作為潛變數之間的相關係數。這是兩個獨立的步驟。在結構方程中,這兩步同時進行,即因子與題目之間的關係和因子與因子之間的關係同時考慮。
4.容許更大彈性的測量模型
傳統上,只容許每一題目(指標)從屬於單一因子,但結構方程分析容許更加複雜的模型。例如,我們用英語書寫的數學試題,去測量學生的數學能力,則測驗得分(指標)既從屬於數學因子,也從屬於英語因子(因為得分也反映英語能力)。傳統因子分析難以處理一個指標從屬多個因子或者考慮高階因子等有比較複雜的從屬關係的模型。
5.估計整個模型的擬合程度
在傳統路徑分析中,只能估計每一路徑(變數間關係)的強弱。在結構方程分析中,除了上述參數的估計外,還可以計算不同模型對同一個樣本數據的整體擬合程度,從而判斷哪一個模型更接近數據所呈現的關係。
線性相關分析:線性相關分析指出兩個隨機變數之間的統計聯繫。兩個變數地位平等,沒有因變數和自變數之分。因此相關係數不能反映單指標與總體之間的因果關係。
線性回歸分析:線性回歸是比線性相關更複雜的方法,它在模型中定義了因變數和自變數。但它只能提供變數間的直接效應而不能顯示可能存在的間接效應。而且會因為共線性的原因,導致出現單項指標與總體出現負相關等無法解釋的數據分析結果。
結構方程模型分析:結構方程模型是一種建立、估計和檢驗因果關係模型的方法。模型中既包含有可觀測的顯變數,也可能包含無法直接觀測的潛變數。結構方程模型可以替代多重回歸、通徑分析、因子分析、協方差分析等方法,清晰分析單項指標對總體的作用和單項指標間的相互關係。
簡單而言,與傳統的回歸分析不同,結構方程分析能同時處理多個因變數,並可比較及評價不同的理論模型。與傳統的探索性因子分析不同,在結構方程模型中,可以通過提出一個特定的因子結構,並檢驗它是否吻合數據。通過結構方程多組分析,我們可以了解不同組別內各變數的關係是否保持不變,各因子的均值是否有顯著差異。
樣本大小
從理論上講:樣本容量越大越好。Boomsma(1982)建議,樣本容量最少大於100,最好大於200以上。對於不同的模型,要求有所不一樣。一般要求如下:N/P〉10;N/t〉5;其中N為樣本容量,t為自由估計參數的數目,p為指標數目。
指標數目
一般要求因子的指標數目至少為3個。在探索性研究或者設計問卷的初期,因子指標的數目可以適當多一些,預試結果可以根據需要刪除不好的指標。當少於3個或者只有1個(因子本身是顯變數的時候,如收入)的時候,有專門的處理辦法。
數據類型
絕大部分結構方程模型是基於定距、定比、定序數據計算的。但是軟體(如Mplus)可以處理定類數據。數據要求要有足夠的變異量,相關係數才能顯而易見。如樣本中的數學成績非常接近(如都是95分左右),則數學成績差異大部分是測量誤差引起的,則數學成績與其它變數之間的相關就不顯著。
數據正態性
極大似然估計法(ML)是結構方程分析最常用的方法,ML方法的前提條件是變數是多元正態分佈的。數據的非正態性可以通過偏度(skew)和峰度(kurtosis)來表示。偏度表示數據的對稱性,峰度表示數據平坦性的。LISREL中包含的估計方法有:ML(極大似然)、GLS(廣義最小二乘法)、WLS(一般加權最小二乘法)等,WLS並不要求數據是正態的。
通過結構方程模型建模分析數據是一個動態的不斷修改的過程。在建模的過程中,研究人員要通過每次建模計算得到的結果去分析這個模型的合理性,然後要依據經驗及前一模型的擬合結果去不斷調整模型的結構,最終得到一個最合理的、與事實相符的模型。
在驗證模型(SC)的應用中,從應用者的角度來看,對他所分析的數據只有一個模型是最合理和最符合所調查數據的。應用結構方程建模去分析數據的目的,就是去驗證模型是否擬合樣本數據,從而決定是接受還是拒絕這個模型。這一類的分析並不太多,因為無論是接受還是拒絕這個模型,從應用者的角度來說,還是希望有更好的選擇。
在選擇模型(AM)分析中,結構方程模型應用者提出幾個不同的可能模型(也稱為替代模型或競爭模型),然後根據各個模型對樣本數據擬合的優劣情況來決定哪個模型是最可取的。這種類型的分析雖然較驗證模型多,但從應用的情況來看,即使模型應用者得到了一個最可取的模型,但仍然是要對模型做出不少修改的,這樣就成為了產生模型類的分析。
在產生模型分析(即MG類模型)中,模型應用者先提出一個或多個基本模型,然後檢查這些模型是否擬合樣本數據,基於理論或樣本數據,分析找出模型擬合不好的部分,據此修改模型,並通過同一的樣本數據或同類的其他樣本數據,去檢查修正模型的擬合程度。這樣一個整個的分析過程的目的就是要產生一個最佳的模型。
因此,結構方程除可用作驗證模型和比較不同的模型外,也可以用作評估模型及修正模型。一些結構方程模型的應用人員都是先從一個預設的模型開始,然後將此模型與所掌握的樣本數據相互印證。如果發現預設的模型與樣本數據擬合的並不是很好,那麼就將預設的模型進行修改,然後再檢驗,不斷重複這麼一個過程,直至最終獲得一個模型應用人員認為與數據擬合度達到他的滿意度,而同時各個參數估計值也有合理解釋的模型。