多變數分析
多變數分析
多變數分析(multivariable analysis)為統計方法的一種,包含了許多的方法,最基本的為單變數,再延伸出來的多變數分析。1930年代它在理論上發展很快,但由於計算複雜,實際應用很少。1970年代以來由於計算機的蓬勃發展和普及,多變數統計分析已滲入到幾乎所有的學科。到80年代後期,計算機軟體包已很普遍,使用也方便,因此多變數分析方法也更為普及。
多變數分析為統計方法的一種,包含了許多的方法,最基本的為單變數,再延伸出來的多變數分析。統計資料中有多個變數(或稱因素、指標)同時存在時的統計分析,是統計學的重要分支,是單變數統計的發展。統計學中的多變數統計分析起源於醫學和心理學。
在社會及行為科學的研究中,隨著研究方法的複雜及個人計算機的普及,應用多元統計方法來分析資料的機會也相對增加。特別是近年來,各大學研究生人數逐年增加,基於學位論文撰寫的需要,多元統計方法及統計軟體包的運用成為不可或缺的能力。
第一章 多元回歸分析
第二章 典型相關分析
第三章 區別分析
第四章 平均數之假設考驗
第五章 多變數變異數分析
第六章 主成分分析
第七章 因子分析
第八章 集群分析
第九章 多元尺度法
第十章 結構方程模式
第十一章 階層線性模式
(multivariable statistical analysis)
例如對630名炊事員高血壓病進行調查,檢查項目中除血壓外,尚有年齡、性別、體重、體胖等15個項目(變數)。如果用單變數統計分析法考察超重與血壓的關係,一般是把數據做成表1的形式。從表1可見,超重組與不超重組相比,高血壓患病率高出一倍以上。但如果把資料按體胖者與不體胖者劃分成兩組,再考察每組內的超重與高血壓患病率的關係,就未能發現超重與高血壓患病率有任何明顯的聯繫。也就是說,單變數統計分析忽視了另外因素(如此例中的體胖及年齡等)的影響。對於有多個變數客觀存在而又相互影響的資料,採用簡單的單變數統計分析是不合理的。多變數統計分析就能把變數間的內在聯繫和相互影響考慮在內。
多變數統計的理論基礎和工具是數學中的概率論和矩陣。但對於實際應用者而言,只要有合適的計算機和軟體包以及掌握一些初步的多變數統計知識就可以使用它來解決實際問題。多變數統計的內容很多,但從實際應用角度看,主要包括回歸分析、判別分析、因子分析、主成分分析、聚類分析、生存分析等六個大的分支。
當多個變數x1,x2,…,xm(稱為回歸變數或自變數、獨立變數)同時影響某個指標y(稱為因變數或依賴變數)時,可進行回歸分析,回歸分析的第一個任務就是求回歸變數對指標y的影響的統計規律性(也稱回歸關係);第二個任務是尋找眾多的回歸變數中哪一些能對指標y產生影響(常稱為因素分析或變數的篩選);第三個任務(也稱相關分析)是在固定(或稱消除)其他變數的影響后,考察每一個回歸變數對指標y的相關程度(稱為偏相關係數)。上述三個任務常是相互聯繫,可以同時完成。
回歸變數x1,x2,…,xm與因變數y之間最常見的統計關係有兩大類型:線性模型和非線性模型。線性模型中假定y的主要部分(記為),可由x1,x2,xm線性表示為
其中b0,b1,b2,…,bm是未知常數,需用樣本去估計,ε是用取代y后的誤差。這是最常用的模型,稱為多重線性回歸或多元線性回歸。用樣本估計線性回歸模型中未知常數的方法也很多,經典的方法為最小二乘法,它的理論較為完善,此法較適用於回歸變數之間的相關性不很大時。其他求未知常數b0,b1,b2,…,bm的方法還有嶺回歸、特徵根回歸、主成分回歸等,它們常用於回歸變數之間相關性很大時。
非線性回歸模型中y的主要部分與x1,x2,…,xm的關係為非線性函數:
其中┃的形式已知,未知常數α1,α2;…用樣本去估計。醫學中最常見的非線性回歸是logistic回歸,它常用於疾病對照研究以及生長發育問題中。
在前述的炊事員高血壓病調查中,使用線性模型和最小二乘法求出未知常數,再用逐步回歸選取變數,可求得15個變數中有7個變數對炊事員舒張壓有顯著的影響,它們按偏相關係數大小排列為:年齡(0.297),體胖程度(0.253),腎炎史(0.162),性別(0.117),工作類別(0.081),高血壓家族史(0.061),嗜咸程度(0.052)。從相關性大小看,體胖對舒張壓的影響與年齡的影響大體相當。另外還可看出:工種,家族史和嗜咸對舒張壓雖有影響,但影響甚小。
根據樣本的某些指標來決定樣本歸屬的類別。例如在醫療診斷中,要確定一個病人是否患有急性闌尾炎,這就是一個判別問題。為了回答這一問題往往需要對病人進行多項指標(變數)的檢測,然後根據各項指標的觀測值將病人歸入患有急性闌尾炎或不患有急性闌尾炎的類中。判別分析通常是先確立一個判別函數,將各指標的觀測值代入相應的變數,再根據某判別規則(如函數值大於某值)作出判斷、鑒別或決策。例如,為了研究亞硝酸基鹽化合物與胃癌的關係,有人曾對胃癌組(記為H1)、萎縮性胃炎組(H2)、淺表性胃炎組(H3)3組病人測量以下6個指標(變數):性別(x1,男為1,女為0)、年齡(x2)、胃液中pH值(x3)、唾液中亞硝酸鹽濃度(x4)、胃液中亞硝酸鹽濃度(x5)、胃液中二甲基亞硝酸胺濃度(x6)。用判別分析法,可求出6個指標(變數)在3個疾病組中分佈有顯著不同的是x1,x2,x4,x6;其餘兩個指標在不同組中的分佈大體相同。對應於每個疾病組可建立以下的判別函數:
u1=-11.48+2.68x1+0.37x2+0.04x4+0.90x6(H1)u2=-14.06+3.79x1+0.35x2+0.50x4+1.82x6(H2)u3=-6.36+1.84x1+0.27x2+0.34x4+0.84x6(H3)
在判別分析時,可將測得的病例值(x1,x2,x4,x6)代入判別函數,求得一組函數值u1,u2,u3。這裡的判別規則是:如果u1最大,則病例判屬疾病組H1;如果u2最大,則判屬H2;如果u3最大,則屬H3。這樣,診斷就變成了數據的處理及分析,現代化醫院自動診斷的原理就基於此。通常說的把醫生的經驗和知識存入計算機,也就是在計算機中建立診斷的經驗方式──判別函數。判別函數中變數前的係數含有重要的信息。上列中變數x3,x5前的係數都為0;x1前的3個係數(2.68,3.79,1.84)說明相對於女性(x1=0)而言,男性(x1=1)更容易得萎縮性胃炎(3.79)或胃癌(2.68);x2前的3個係數說明相同年齡者得胃癌、萎縮性胃炎、淺表性胃炎的比為0.37:0.35:0.27;等等。
也稱因素分析。醫學、生物學及一切社會和自然現象中各變數(或事物)之間常存在有相關性或相似性。這是因為變數(或事物)之間往往存在有共性因素(稱為公因子或共性因子),這些共性因子同時影響不同的變數(或事物)。因子分析的根本任務就是從眾多的變數(或事物)中由表及裡找出隱含於它們內部的公因子,指出公因子的主要特點,並用由實際測量到的變數(或事物)構造公因子。因子分析有R型及Q型之分,用於變數之間時稱為R型因子分析,用於事物之間時稱為Q型。
以R型因子分析為例,設樣本中的變數為x1,x2,…,xm,隱藏的公因子為┃1,┃2,…,┃k。這時每個變數在理論上常可寫成下面的形式:
上式右邊的第一部分是變數中公因子(┃1,┃2,…,┃k)起作用的部分,后一部分是與公因子無關的部分(稱為獨立性部分)。因子分析的根本任務就是用樣本求出┃1,┃2,…,┃k及其係數{α嗎},係數α嗎稱為權或負荷係數,當樣本是標準化數據且假定公因子之間彼此不相關時,則權α嗎就是公因子┃j與變數xi間的相關係數。利用因子分析方法可以從所觀測到的變數中推斷出少數因子,用最少的因子來解釋所觀測到的變數,從而揭示事物之間內在的聯繫。對因子的實際解釋必須結合專業知識並由實踐檢驗。例如中國學者梁月華、孫尚拱曾用因子分析法找出隱含在6個易測量的生理指標(收縮壓、舒張壓、呼吸、心率、體溫及唾液量)內部的公因子┃1,並用實驗判定┃1可很好地代表交感神經的平衡狀態,最後用┃1論證了中醫的“寒熱”其本質就是交感神經的抑制或興奮。
主成分分析是研究如何把彼此相關的變數綜合成一個(或少數幾個)綜合指標(或稱主成分),而該綜合指標應能最大程度地反映觀測變數所提供的信息。如記(x1,x2,…,xm)為觀測變數,欲求的綜合指標Z一般可寫成。
實際上Z往往只能吸收m個變數中相關最大的一部分信息(類似於因子分析中┃1),此當觀測變數間彼此很少有相關性時,使用主成分分析是不合適的。如果觀測變數間相關性可以分成幾組而各組間又很少相關,這時不能用一個主成分綜合全體變數,而應多取幾個主成分。
實際使用時,由於主成分分析與因子分析極為相似,所以不少統計學家常把兩種分析不加區別,名稱也相互套用。
主成分分析在醫學研究中有很多應用,例如有人把5個易測量的老化征(白斑、老年斑、閉目單腿直立時間、老年環、脫齒數)綜合成一個指標Z,計算表明綜合值Z可以吸收5個老化征全體信息中的43%,能綜合地反映出形體老化的程度。
也稱為分類學。經典的分類學誕生於幾百年前,比如化石分類、植物標本分類等。過去的分類多依靠一些特異性指標。如果對於所需分類的事物,不存在或難以使用特異性指標時就只能採用多變數統計分析法。把數學方法引進分類學並稱之為“聚類分析”是60年代的事。此後聚類分析發展很快,並取得廣泛應用,但還不大成熟。
聚類分析也可分為R型及Q型,對變數作分類稱R型,對樣品(觀察單元、事物)作分類稱Q型。分類的基礎是相似性或距離。如果兩個變數(或樣品)彼此相似或距離很近,自然就分在同一類。因此在進行聚類分析時必須先定義相似性或距離。相似性或距離的定義法種類繁多。例如,常用變數間的相關係數代表變數間的相似性,以幾何中兩點間的歐氏距離(先要去量綱)代表兩個樣品間的距離。然後選用分類的數學公式,對它們的分類作出判別。這些公式也是種類繁多。至今沒有一種公式是最優的。實際工作者常選用多種方法試算,再結合專業知識確定分類的結果。
生存分析起源於壽命表。生物的生存時間除了受健康的影響外,同時還受社會因素,生活條件等影響。生存分析研究哪些因素對“壽命”有顯著影響,它的風險程度如何。20世紀末生存分析已不僅用於研究人的壽命問題,還用於一切廣義的“壽命”或有關“死亡”的問題,比如發動機的壽命,病人手術后的生存時間,兩種療效的對比分析等。生存分析有多種模型,最常用的有Cox回歸模型,它的特點是:m個變數聯合作用的相對風險可以表示成每個變數單獨作用時相對風險的乘積(故也稱為乘法模型)。另外常用的模型為可加性模型,它的特點是:m個變數聯合作用的相對風險可表示為每個變數單獨作用之和。究竟應使用什麼樣的模型應在具體問題中結合專業知識確定。
多變數統計分析除了上述六個大的分支外,通徑分析和典則相關分析也很常用。一般回歸分析只能計算每一個變數(在固定其他變數時)對指標y的直接作用大小,而通徑分析可同時計算每一個變數對指標y的間接作用(即通過與它相關的變數作用於y)。通徑分析在流行病的遺傳研究中已有不少應用。典則相關分析也是回歸分析的進一步發展。對每個事物同時測量多個指標(y1,y2,…)和多個自變數(x1,x2,…),分析指標的綜合與自變數的綜合是如何相關時多使用典則相關分析。