皮爾遜積矩相關係數

卡爾·皮爾遜提出的理論

統計學中,皮爾遜積矩相關係數(英語:Pearson product-moment correlation coefficient,又稱作PPMCC或PCCs, 文章中常用r或Pearson's r表示)用於度量兩個變數X和Y之間的相關(線性相關),其值介於-1與1之間。在自然科學領域中,該係數廣泛用於度量兩個變數之間的相關程度。它是由卡爾·皮爾遜弗朗西斯·高爾頓在19世紀80年代提出的一個相似卻又稍有不同的想法演變而來。這個相關係數也稱作“皮爾森相關係數r”。

定義


兩個變數之間的皮爾遜相關係數定義為兩個變數之間的協方差和標準差的商:
上式定義了總體相關係數,常用希臘小寫字母作為代表符號。估算樣本的協方差和標準差,可得到樣本相關係數(樣本皮爾遜係數),常用英文小寫字母r代表:
亦可由樣本點的標準分數均值估計,得到與上式等價的表達式:
,其中分別是對樣本的標準分數、樣本平均值和樣本標準差。

數學特性


總體和樣本皮爾遜係數的絕對值小於或等於1。如果樣本數據點精確的落在直線上(計算樣本皮爾遜係數的情況),或者雙變數分佈完全在直線上(計算總體皮爾遜係數的情況),則相關係數等於1或-1。皮爾遜係數是對稱的:。
皮爾遜相關係數有一個重要的數學特性是,因兩個變數的位置和尺度的變化並不會引起該係數的改變,即它該變化的不變數(由符號確定)。也就是說,我們如果把X移動到和把Y移動到,其中和是常數,並不會改變兩個變數的相關係數(該結論在總體和樣本皮爾遜相關係數中都成立)。我們發現更一般的線性變換則會改變相關係數:參見之後章節對該特性應用的介紹。
由於也類似,並且
故相關係數也可以表示成
對於樣本皮爾遜相關係數:
以上方程給出了計算樣本皮爾遜相關係數簡單的單流程演演算法,但是其依賴於涉及到的數據,有時它可能是數值不穩定的。

數據分佈


存在性

總體皮爾遜相關係數被定義成矩,因此任意的雙變數概率分佈是非零的,也就是說總體協方差和邊緣總體方差是由定義的。一些概率分佈,諸如柯西分佈有未定義的方差,因此如果服從這種分佈,ρ便是未定義的。在實際應用中,如果有數據被懷疑服從重尾分佈,這個條件就需要引起重視。然而,相關係數的存在性通常並需要太介意;例如,如果分佈是有界的,便總是有意義的。

大樣本的特性

雙變數正態分佈的案例中,只要邊緣均值和方差是已知的,總體相關係數描述的是便是聯合分佈。在其他的雙變數分佈中,這個結論並不正確。總之,不論兩個隨機變數的聯合分佈是不是正態的,相關係數在研究的它們之間的線性依賴性都是有幫助的。樣本相關係數是對兩個正態分佈變數總體相關係數的最大似然估計並且是漸進無偏的和有效的,這也就是說如果數據是正態的並且樣本容量是中等的或大量的,就不可能構造出一個比樣本相關係數更準確的估計。對於非正態的數據,樣本相關係數大致上是無偏的,但有可能是無效的。只要樣本均值、方差和協方差是一致的(當大數定理可以應用的情況下),樣本相關係數是總體相關係數的一致估計。

穩健性

與其他常用的統計指標相似的,樣本指標r不是穩健的。因此如果由異常值,這個指標是有誤導性的。特別的,PMCC既不是穩健分佈的,也不是異常值穩健的(seeRobust statistics#Definition)。對X和Y的散點圖的觀察可以很明顯的揭示出缺乏穩健性的情況,在這種情況下,採用的聯合的方法是比較明智的。注意到,雖然大多數穩健的估計器從某種程度上說都是有統計依賴的,它們總的來說,在總體相關係數的尺度上都是可辨的。
基於皮爾遜相關係數的統計推斷對數據分散式敏感的。如果數據大致是正態分佈的,可以使用精確檢驗和基於Fisher變換的漸進檢驗,但是它們可能由誤導性。在一些情況下,自助採樣可以用來構造置信區間。同時,重複抽樣可以應用在假設檢驗中。這些非參數化的方法在某些情況下,如雙變數正態分佈不能保證時,可能得出更有意義的結論。然而,這些方法的標準形式依賴於數據的可交換性。這也就意味著被分析的數據時沒有順序的和組別的。因為這有可能會影響估計相關係數的特性。
分層分析是一種容許缺少雙變數正態性的方法,或者說是用來隔離相互關聯因素的關聯結果。如果W代表聚類成員或者其它需要被控制的因素,我們可以分離基於W的數據,然後我們可以再每個層里計算相關係數。當我們控制變數W,我們便能在層的等級上估計與所有相關係數相關的各自的相關係數。

強雜訊條件下


強雜訊條件下,提取相關係數兩個隨機變數之間的是平凡的,特別是在典型相關分析報告在退化的相關值的情況下,由於存在大量雜訊。一種概括的方法在其他地方給出。

維基相關條目


• 相關
• 史匹曼等級相關係數
• 相關
• Disattenuation
• Maximal information coefficient