方差

衡量源數據和期望值相差的度量值

(variance)是在概率論和統計方差衡量隨機變數或一組數據時離散程度的度量。概率論中方差用來度量隨機變數和其數學期望(即均值)之間的偏離程度。統計中的方差(樣本方差)是每個樣本值與全體樣本值的平均數之差的平方值的平均數。在許多實際問題中,研究方差即偏離程度有著重要意義。

方差是衡量源數據和期望值相差的度量值。

歷史


“方差”(variance)這一詞語率先由羅納德·費雪(Ronald Fisher)在其論文《The Correlation Between Relatives on the Supposition of Mendelian Inheritance》中提出。

方差的定義


方差在統計描述和概率分佈中各有不同的定義,並有不同的公式。
在統計描述中,方差用來計算每一個變數(觀察值)與總體均數之間的差異。為避免出現離均差總和為零,離均差平方和受樣本含量的影響,統計學採用平均離均差平方和來描述變數的變異程度。總體方差計算公式:
為總體方差,為變數,為總體均值,為總體例數。
實際工作中,總體均數難以得到時,應用樣本統計量代替總體參數,經校正後,樣本方差計算公式:
為樣本方差,為變數,為樣本均值,為樣本例數。
在概率分佈中,設X是一個離散型隨機變數,若存在,則稱為的方差,記為,)或,其中是的期望值,是變數值,公式中的是期望值expected value的縮寫,意為“變數值與其期望值之差的平方和”的期望值。離散型隨機變數方差計算公式:
當稱為變數的方差,而稱為標準差(或均方差)。它與有相同的量綱。標準差是用來衡量一組數據的離散程度的統計量。
對於連續型隨機變數X,若其定義域為(a,b),概率密度函數為f(x),連續型隨機變數X方差計算公式:
方差刻畫了隨機變數的取值對於其數學期望的離散程度。(標準差、方差越大,離散程度越大)
若的取值比較集中,則方差較小,若X的取值比較分散,則方差D(X)較大。
因此,是刻畫取值分散程度的一個量,它是衡量取值分散程度的一個尺度。

方差的性質


1、設C是常數,則D(C)=0
2、設X是隨機變數,C是常數,則有
3、設X與Y是兩個隨機變數,則
其中協方差
特別的,當X,Y是兩個不相關的隨機變數則
此性質可以推廣到有限多個兩兩不相關的隨機變數之和的情況。
4、的充分必要條件是以概率1取常數,即
(當且僅當X取常數值時的概率為1時,。)
註:不能得出X恆等於常數,當x是連續的時候X可以在任意有限個點取不等於常數c的值。
5、。
證明
1、
2、
3、
上式右端第三項為。
若相互獨立,由數學期望的性質知道上式為0。
4、充分性:,則有
必要性:用反證法,概率不會大於1,只需考慮是否等於1或小於1。
假設,則對於某一個數。
但是由切比雪夫不等式,當D(X)=0,滿足與上式矛盾。
於是。

種類及計算


離散型方差

離散型方差的計算式為:,其中。
而將上式展開后可得:

連續型方差

連續型方差的計算式為:,其中。
將上式展開后可得:
以上兩式是一樣的,只是寫法不同。
證明:由數學期望的性質得

變數期望方差


離散型

服從兩點分佈,則
服從超幾何分佈,即,則
服從二項分佈,即,則
服從泊松分佈,即,則

連續型

服從均勻分佈,即,則,
服從指數分佈,即,則
服從正態分佈,即,則
服從標準正態分佈,即,則
求正態分佈的數學期望&&方差
設,求E(X),D(X).
令,由於,所以,已知E(Z)=0,D(Z)=1,從而

示例


已知某零件的真實長度為a,現用甲、乙兩台儀器各測量10次,將測量結果X用坐標上的點表示如圖:
甲儀器測量結果:
乙儀器測量結果:全是a
兩台儀器的測量結果的均值都是 a 。但是用上述結果評價一下兩台儀器的優劣,很明顯,我們會認為乙儀器的性能更好,因為乙儀器的測量結果集中在均值附近。
由此可見,研究隨機變數與其均值的偏離程度是十分必要的。那麼,用怎樣的量去度量這個偏離程度呢?容易看到能度量隨機變數與其均值E(X)的偏離程度。但由於上式帶有絕對值,運算不方便,通常用量這一數字特徵就是方差。

公式


方差是實際值與期望值之差平方的平均值,而標準差是方差算術平方根。在實際計算中,我們用以下公式計算方差。
方差是各個數據與平均數之差的平方的和的平均數,即,其中,x表示樣本的平均數,n表示樣本的數量,xi表示個體,而就表示方差。
而當用作為樣本的方差的估計時,發現其數學期望並不是X的方差,而是方差的倍,的數學期望才是的方差,用它作為X的方差的估計具有“無偏性”,所以我們總是用來估計的方差,並且把它叫做“樣本方差”。
方差是和中心偏離的程度,用來衡量一批數據的波動大小(即這批數據偏離平均數的大小)並把它叫做這組數據的方差,記作S。在樣本容量相同的情況下,方差越大,說明數據的波動越大,越不穩定。
公式可以進一步推導為:。其中為這組數據中的數據,為大於0的整數。

統計學意義


當數據分佈比較分散(即數據在平均數附近波動較大)時,各個數據與平均數的差的平方和較大,方差就較大;當數據分佈比較集中時,各個數據與平均數的差的平方和較小。因此方差越大,數據的波動越大;方差越小,數據的波動就越小。
樣本中各數據與樣本平均數的差的平方和的平均數叫做樣本方差;樣本方差的算術平方根叫做樣本標準差。樣本方差和樣本標準差都是衡量一個樣本波動大小的量,樣本方差或樣本標準差越大,樣本數據的波動就越大。
方差和標準差是測算離散趨勢最重要、最常用的指標。方差是各變數值與其均值離差平方的平均數,它是測算數值型數據離散程度的最重要的方法。標準差為方差的算術平方根,用S表示。方差相應的計算公式為
標準差與方差不同的是,標準差和變數的計算單位相同,比方差清楚,因此很多時候我們分析的時候更多的使用的是標準差。

最近進展


方差不僅僅表達了樣本偏離均值的程度,更是揭示了樣本內部彼此波動的程度,也可以理解為方差代表了樣本彼此波動的期望。當然,這個結論目前是在二階統計矩下成立。