正態分佈

由A.棣莫弗在求二項分佈的漸近公式中得到

正態分佈(Normal distribution),也稱“常態分佈”,又名高斯分佈(Gaussian distribution),最早由A.棣莫弗在求二項分佈的漸近公式中得到。C.F.高斯在研究測量誤差時從另一個角度導出了它。P.S.拉普拉斯和高斯研究了它的性質。是一個在數學、物理及工程等領域都非常重要的概率分佈,在統計學的許多方面有著重大的影響力。

正態曲線呈鍾型,兩頭低,中間高,左右對稱因其曲線呈鐘形,因此人們又經常稱之為鐘形曲線。

若隨機變數X服從一個數學期望為μ、方差為σ^2的正態分佈,記為N(μ,σ^2)。其概率密度函數為正態分佈的期望值μ決定了其位置,其標準差σ決定了分佈的幅度。當μ = 0,σ = 1時的正態分佈是標準正態分佈

歷史發展


正態分佈概念是由德國的數學家和天文學家Moivre於1733年首次提出的,但由於德國數學家Gauss率先將其應用於天文學家研究,故正態分佈又叫高斯分佈,高斯這項工作對後世的影響極大,他使正態分佈同時有了“高斯分佈”的名稱,後世之所以多將最小二乘法的發明權歸之於他,也是出於這一工作。但現今德國10馬克的印有高斯頭像的鈔票,其上還印有正態分佈的密度曲線。這傳達了一種想法:在高斯的一切科學貢獻中,其對人類文明影響最大者,就是這一項。在高斯剛作出這個發現之初,也許人們還只能從其理論的簡化上來評價其優越性,其全部影響還不能充分看出來。這要到20世紀正態小樣本理論充分發展起來以後。拉普拉斯很快得知高斯的工作,並馬上將其與他發現的中心極限定理聯繫起來,為此,他在即將發表的一篇文章(發表於1810年)上加上了一點補充,指出如若誤差可看成許多量的疊加,根據他的中心極限定理,誤差理應有高斯分佈。這是歷史上第一次提到所謂“元誤差學說”——誤差是由大量的、由種種原因產生的元誤差疊加而成。後來到1837年,海根(G.Hagen)在一篇論文中正式提出了這個學說。
其實,他提出的形式有相當大的局限性:海根把誤差設想成個數很多的、獨立同分佈的“元誤差”之和,每隻取兩值,其概率都是1/2,由此出發,按狄莫佛的中心極限定理,立即就得出誤差(近似地)服從正態分佈。拉普拉斯所指出的這一點有重大的意義,在於他給誤差的正態理論一個更自然合理、更令人信服的解釋。因為,高斯的說法有一點循環論證的氣味:由於算術平均是優良的,推出誤差必須服從正態分佈;反過來,由后一結論又推出算術平均及最小二乘估計的優良性,故必須認定這二者之一(算術平均的優良性,誤差的正態性)為出發點。但算術平均到底並沒有自行成立的理由,以它作為理論中一個預設的出發點,終覺有其不足之處。拉普拉斯的理論把這斷裂的一環連接起來,使之成為一個和諧的整體,實有著極重大的意義。

定理


由於一般的正態總體其圖像不一定關於y軸對稱,對於任一正態總體,其取值小於x的概率。只要會用它求正態總體在某個特定區間的概率即可。
為了便於描述和應用,常將正態變數作數據轉換。將一般正態分佈轉化成標準正態分佈。
正態分佈
正態分佈
若服從標準正態分佈,通過查標準正態分佈表就可以直接計算出原正態分佈的概率值。故該變換被稱為標準化變換。(標準正態分佈表:標準正態分佈表中列出了標準正態曲線下從-∞到X(當前值)範圍內的面積比例。)

定義


一維正態分佈

若隨機變數 服從一個位置參數為、尺度參數為 的概率分佈,且其概率密度函數為
則這個隨機變數就稱為正態隨機變數,正態隨機變數服從的分佈就稱為正態分佈,記作,讀作 服從,或 服從正態分佈。
正態分佈
正態分佈
μ維隨機向量具有類似的概率規律時,稱此隨機向量遵從多維正態分佈。多元正態分佈有很好的性質,例如,多元正態分佈的邊緣分佈仍為正態分佈,它經任何線性變換得到的隨機向量仍為多維正態分佈,特別它的線性組合為一元正態分佈。
本詞條的正態分佈是一維正態分佈,此外多維正態分佈參見“二維正態分佈”。

標準正態分佈

當 時,正態分佈就成為標準正態分佈

性質


正態分佈的一些性質:
(1)如果 且a與b是實數,那麼 (參見期望值和方差)。
(2)如果 與 是統計獨立的正態隨機變數,那麼:
正態分佈
正態分佈
它們的和也滿足正態分佈
它們的差也滿足正態分佈
U與V兩者是相互獨立的。(要求X與Y的方差相等)
(3)如果和是獨立常態隨機變數,那麼:
它們的積XY服從概率密度函數為p的分佈
其中是修正貝塞爾函數(modified Bessel function)
它們的比符合柯西分佈,滿足
(4)如果為獨立標準常態隨機變數,那麼服從自由度為n的卡方分佈。

分佈曲線


圖形特徵

集中性:正態曲線的高峰位於正中央,即均數所在的位置。
對稱性:正態曲線以均數為中心,左右對稱,曲線兩端永遠不與橫軸相交。
均勻變動性:正態曲線由均數所在處開始,分別向左右兩側逐漸均勻下降。
曲線與橫軸間的面積總等於1,相當於概率密度函數的函數從正無窮到負無窮積分的概率為1。即頻率的總和為100%。
關於μ對稱,並在μ處取最大值,在正(負)無窮遠處取值為0,在μ±σ處有拐點,形狀呈現中間高兩邊低,正態分佈的概率密度函數曲線呈鐘形,因此人們又經常稱之為鐘形曲線。

參數含義

正態分佈有兩個參數,即期望(均數)μ和標準差σ,σ為方差。
正態分佈具有兩個參數μ和σ^2的連續型隨機變數的分佈,第一參數μ是服從正態分佈的隨機變數的均值,第二個參數σ^2是此隨機變數的方差,所以正態分佈記作N(μ,σ)。
μ是正態分佈的位置參數,描述正態分佈的集中趨勢位置。概率規律為取與μ鄰近的值的概率大,而取離μ越遠的值的概率越小。正態分佈以X=μ為對稱軸,左右完全對稱。正態分佈的期望、均數、中位數、眾數相同,均等於μ。
σ描述正態分佈資料數據分佈的離散程度,σ越大,數據分佈越分散,σ越小,數據分佈越集中。也稱為是正態分佈的形狀參數,σ越大,曲線越扁平,反之,σ越小,曲線越瘦高。

面積分佈

1.實際工作中,正態曲線下橫軸上一定區間的面積反映該區間的例數佔總例數的百分比,或變數值落在該區間的概率(概率分佈)。不同 範圍內正態曲線下的面積可用公式計算。
⒉正態曲線下,橫軸區間(μ-σ,μ+σ)內的面積為68.268949%。
P{|X-μ|<σ}=2Φ(1)-1=0.6826
橫軸區間(μ-1.96σ,μ+1.96σ)內的面積為95.449974%。
P{|X-μ|<2σ}=2Φ(2)-1=0.9544
橫軸區間(μ-2.58σ,μ+2.58σ)內的面積為99.730020%。
P{|X-μ|<3σ}=2Φ(3)-1=0.9974
由於“小概率事件”和假設檢驗的基本思想“小概率事件”通常指發生的概率小於5%的事件,認為在一次試驗中該事件是幾乎不可能發生的。由此可見X落在(μ-3σ,μ+3σ)以外的概率小於千分之三,在實際問題中常認為相應的事件是不會發生的,基本上可以把區間(μ-3σ,μ+3σ)看作是隨機變數X實際可能的取值區間,這稱之為正態分佈的“3σ”原則。

研究過程


概念及特徵:
一、正態分佈的概念
由一般分佈的頻數表資料所繪製的直方圖,圖⑴可以看出,高峰位於中部,左右兩側大致對稱。我們設想,如果觀察例數逐漸增多,組段不斷分細,直方圖頂端的連線就會逐漸形成一條高峰位於中央(均數所在處),兩側逐漸降低且左右對稱,不與橫軸相交的光滑曲線圖⑶。這條曲線稱為頻數曲線或頻率曲線,近似於數學上的正態分佈(normal distribution)。由於頻率的總和為100%或1,故該曲線下橫軸上的面積為100%或1。
為了應用方便,常對正態分佈變數X作變數變換。
該變換使原來的正態分佈轉化為標準正態分佈(standard normal distribution),亦稱u分佈。u被稱為標準正態變數或標準正態離差(standard normal deviate)。實際工作中,常需要了解正態曲線下橫軸上某一區間的面積佔總面積的百分數,以便估計該區間的例數佔總例數的百分數(頻數分佈)或觀察值落在該區間的概率。正態曲線下一定區間的面積可以通過附表1求得。對於正態或近似正態分佈的資料,已知均數和標準差,就可對其頻數分佈作出概約估計。
查附表1應注意:①表中曲線下面積為-∞到u的左側累計面積;②當已知μ、σ和X時先按式u=(X-μ)/σ求得u值,再查表,當μ、σ未知且樣本含量n足夠大時,可用樣本均數X1和標準差S分別代替μ和σ,按u=(X-X1)/S式求得u值,再查表;③曲線下對稱於0的區間面積相等,如區間(-∞,-1.96)與區間(1.96,∞)的面積相等,④曲線下橫軸上的總面積為100%或1。
圖2 正態曲線與標準正態曲線的面積分佈
正態分佈的應用某些醫學現象,如同質群體的身高、紅細胞數、血紅蛋白量、膽固醇等,以及實驗中的隨機誤差,呈現為正態或近似正態分佈;有些資料雖為偏態分佈,但經數據變換后可成為正態或近似正態分佈,故可按正態分佈規律處理。
一般正態分佈與標準正態分佈的區別與聯繫
正態分佈也叫常態分佈,是連續隨機變數概率分佈的一種,自然界、人類社會、心理和教育中大量現象均按正態形式分佈,例如能力的高低,學生成績的好壞等都屬於正態分佈。它隨隨機變數的平均數、標準差的大小與單位不同而有不同的分佈形態。標準正態分佈是正態分佈的一種,其平均數和標準差都是固定的,平均數為0,標準差為1。

曲線應用


綜述

⒈ 估計頻數分佈 一個服從正態分佈的變數只要知道其均數與標準差就可根據公式即可估計任意取值範圍內頻數比例。
⒉ 制定參考值範圍
⑴正態分佈法 適用於服從正態(或近似正態)分佈指標以及可以通過轉換后服從正態分佈的指標。
⑵百分位數法 常用於偏態分佈的指標。表3-1中兩種方法的單雙側界值都應熟練掌握。
⒊ 質量控制:為了控制實驗中的測量(或實驗)誤差,常以 作為上、下警戒值,以 作為上、下控制值。這樣做的依據是:正常情況下測量(或實驗)誤差服從正態分佈。
⒋ 正態分佈是許多統計方法的理論基礎。檢驗、方差分析、相關和回歸分析等多種統計方法均要求分析的指標服從正態分佈。許多統計方法雖然不要求分析指標服從正態分佈,但相應的統計量在大樣本時近似正態分佈,因而大樣本時這些統計推斷方法也是以正態分佈為理論基礎的。

頻數分佈

例1.10 某地1993年抽樣調查了100名18歲男大學生身高(cm),其均數=172.70cm,標準差s=4.01cm,①估計該地18歲男大學生身高在168cm以下者占該地18歲男大學生總數的百分數;②分別求X+-1s、X+-1.96s、X+-2.58s範圍內18歲男大學生占該地18歲男大學生總數的實際百分數,並與理論百分數比較。
本例,μ、σ未知但樣本含量n較大,按式(3.1)用樣本均數X和標準差S分別代替μ和σ,求得u值,u=(168-172.70)/4.01=-1.17。查附表標準正態曲線下的面積,在表的左側找到-1.1,表的上方找到0.07,兩者相交處為0.1210=12.10%。該地18歲男大學生身高在168cm以下者,約佔總數12.10%。其它計算結果見表3。
表3 100名18歲男大學生身高的實際分佈與理論分佈
分佈
x+-s
身高範圍(cm)
實際分佈
人數
實際分佈
百分數(%)
理論分佈(%)
X+-1s168.69~176.716767.0068.27
X +-1.96s164.84~180.569595.0095.00
X+-2.58s162.35~183.059999.0099.00

綜合素質研究

教育統計學統計規律表明,學生的智力水平,包括學習能力,實際動手能力等呈正態分佈。因而正常的考試成績分佈應基本服從正態分佈。考試分析要求繪製出學生成績分佈的直方圖,以“中間高、兩頭低”來衡量成績符合正態分佈的程度。其評價標準認為:考生成績分佈情況直方圖,基本呈正態曲線狀,屬於好,如果略呈正(負)態狀,屬於中等,如果呈嚴重偏態或無規律,就是差的。
從概率統計規律看,“正常的考試成績分佈應基本服從正態分佈”是正確的。但是必須考慮人與物的本質不同,以及教育的有所作為可以使“隨機”受到干預,用曲線或直方圖的形狀來評價考試成績就有失偏頗。許多教育專家(如上海顧泠沅、美國布魯姆等)已經通過實踐論證,教育是可以大有作為的,可以做到大多數學生及格,而且多數學生可以得高分,考試成績曲線是偏正態分佈的。但是長期受到“中間高、兩頭低”標準的影響,限制了教師的作為,抑制了多數學生能夠學好的信心。這是很大的誤會。通常正態曲線有一條對稱軸。當某個分數(或分數段)的考生人數最多時,對應曲線的最高點,是曲線的頂點。該分數值在橫軸上的對應點與頂點連接的線段就是該正態曲線的對稱軸。考生人數最多的值是峰值。我們注意到,成績曲線或直方圖實際上很少對稱的,稱之為峰線更合適。

醫學參考值

某些醫學現象,如同質群體的身高、紅細胞數、血紅蛋白量,以及實驗中的隨機誤差,呈現為正態或近似正態分佈;有些指標(變數)雖服從偏態分佈,但經數據轉換后的新變數可服從正態或近似正態分佈,可按正態分佈規律處理。其中經對數轉換后服從正態分佈的指標,被稱為服從對數正態分佈。
醫學參考值範圍亦稱醫學正常值範圍。它是指所謂“正常人”的解剖、生理、生化等指標的波動範圍。制定正常值範圍時,首先要確定一批樣本含量足夠大的“正常人”,所謂“正常人”不是指“健康人”,而是指排除了影響所研究指標的疾病和有關因素的同質人群;其次需根據研究目的和使用要求選定適當的百分界值,如80%,90%,95%和99%,常用95%;根據指標的實際用途確定單側或雙側界值,如白細胞計數過高過低皆屬不正常須確定雙側界值,又如肝功中轉氨酶過高屬不正常須確定單側上界,肺活量過低屬不正常須確定單側下界。另外,還要根據資料的分佈特點,選用恰當的計算方法。常用方法有:
⑴正態分佈法:適用於正態或近似正態分佈的資料。
雙側界值:X+-u(u)單側上界:X+u(u),或單側下界:X-u(u)
⑵對數正態分佈法:適用於對數正態分佈資料。
雙側界值:lg-1[X(lgx)+-u(u)S(lgx)];單側上界:lg-1[X(lgx)+u(u)S(lgx)],或單側下界:lg-1[X(lgx)-u(u)S(lgx)]。
常用u值可根據要求由表4查出。
⑶百分位數法:常用於偏態分佈資料以及資料中一端或兩端無確切數值的資料。
雙側界值:P2.5和P97.5;單側上界:P95,或單側下界:P5。
表4常用u值表
參考值範圍(%)單側雙側
800.8421.282
901.2821.645
951.6451.960
992.3262.576
統計的理論基礎
如t分佈、F分佈、分佈都是在正態分佈的基礎上推導出來的,u檢驗也是以正態分佈為基礎的。此外,t分佈、二項分佈、Poisson分佈的極限為正態分佈,在一定條件下,可以按正態分佈原理來處理。
概率論中最重要的分佈
正態分佈有極其廣泛的實際背景,生產與科學實驗中很多隨機變數的概率分佈都可以近似地用正態分佈來描述。例如,在生產條件不變的情況下,產品的強力、抗壓強度、口徑、長度等指標;同一種生物體的身長、體重等指標;同一種種子的重量;測量同一物體的誤差;彈著點沿某一方向的偏差;某個地區的年降水量;以及理想氣體分子的速度分量,等等。一般來說,如果一個量是由許多微小的獨立隨機因素影響的結果,那麼就可以認為這個量具有正態分佈(見中心極限定理)。從理論上看,正態分佈具有很多良好的性質,許多概率分佈可以用它來近似;還有一些常用的概率分佈是由它直接導出的,例如對數正態分佈、t分佈、F分佈等。
主要內涵
在聯繫自然、社會和思維的實踐背景下,我們以正態分佈的本質為基礎,以正態分佈曲線及面積分布圖為表徵(以後談及正態分佈及正態分佈論就要浮現此圖),進行抽象與提升,抓住其中的主要哲學內涵,歸納正態分佈論(正態哲學)的主要內涵如下:
整體論
正態分佈啟示我們,要用整體的觀點來看事物。“系統的整體觀念或總體觀念是系統概念的精髓。”正態分佈曲線及面積分布圖由基區、負區、正區三個區組成,各區比重不一樣。用整體來看事物才能看清楚事物的本來面貌,才能得出事物的根本特性。不能只見樹木不見森林,也不能以偏概全。此外整體大於部分之和,在分析各部分、各層次的基礎上,還要從整體看事物,這是因為整體有不同於各部分的特點。用整體觀來看世界,就是要立足在基區,放眼負區和正區。要看到主要方面,還要看到次要方面,既要看到積極的方面還要看到事物消極的一面,看到事物前進的一面還要看到落後的一面。片面看事物必然看到的是偏態或者是變態的事物,不是真實的事物本身。
重點論
正態分佈曲線及面積分布圖非常清晰的展示了重點,那就是基區佔68.27%,是主體,要重點抓,此外95%,99%則展示了正態的全面性。認識世界和改造世界一定要住住重點,因為重點就是事物的主要矛盾,它對事物的發展起主要的、支配性的作用。抓住了重點才能一舉其綱,萬目皆張。事物和現象紛繁複雜,在千頭萬緒中不抓住主要矛盾,就會陷入無限瑣碎之中。由於我們時間和精力的相對有限性,出於效率的追求,我們更應該抓住重點。在正態分佈中,基區佔了主體和重點。如果我們結合20/80法則,我們更可以大膽的把正區也可以看做是重點。
發展論
聯繫和發展是事物發展變化的基本規律。任何事物都有其產生、發展和滅亡的歷史,如果我們把正態分佈看做是任何一個系統或者事物的發展過程的話,我們明顯的看到這個過程經歷著從負區到基區再到正區的過程。無論是自然、社會還是人類的思維都明顯的遵循這這樣一個過程。準確的把握事物或者事件所處的歷史過程和階段極大的有助於掌握我們對事物、事件的特徵和性質,是我們分析問題,採取對策和解決問題的重要基礎和依據。發展的階段不同,性質和特徵也不同,分析和解決問題的辦法要與此相適應,這就是具體問題具體分析,也是解放思想、實事求是、與時俱樂進的精髓。正態發展的特點還啟示我們,事物發展大都是漸進的和累積的,走漸進發展的道路是事物發展的常態。例如,遺傳是常態,變異是非常態。
總之,正態分佈論是科學的世界觀,也是科學的方法論,是我們認識和改造世界的最重要和最根本的工具之一,對我們的理論和實踐有重要的指導意義。以正態哲學認識世界,能更好的認識和把握世界的本質和規律,以正態哲學來改造世界,能更好的在尊重和利用客觀規律,更有效的改造世界。
弗朗西斯弗朗西斯·高爾頓 [Francis Galton 1822.02.16-1911.01.17],英國探險家、優生學家、心理學家,差異心理學之父,也是心理測量學上生理計量法的創始人。
高而頓對心理學的貢獻,大概可以歸納未差異心理學、心理測量的量化和實驗心理學三方面:
心理學研究之量化,始自高爾頓。他發明了許多感官和運動的測試,並以數量代表所測得的心理特質之差異。他認為人的所有特質,不管是物質的還是精神的,最終都可以定量敘述,這是實現人類科學的必要條件,故最先應用統計法處理心理學研究資料,重視數據的平均數與高中差數。他收集了大量資料證明人的心理特質在人口中的分佈如同身高、體重那樣符合正態分佈曲線。他在論及遺傳對個體差異的影響時,為相關係數的概念作了初步提示。如他研究了“居間親”和其成年子女的身高關係,發現居間親和其子女的身高有正相關,即父母的身材較高,其子女的身材也有較高的趨勢。反之,父母的身材較低,其子女也有較矮的趨勢。同時發現子女的身高常與其父母略有差別,而呈現“回中”趨勢,即離開其父母的身高數,而回到一般人身高的平均數。
智力、能力
理查德·赫恩斯坦 [(Richard J. Herrnstein 1930.05.20-1994.09.13),美國比較心理學家]和默瑞(Charles Murray)合著《正態曲線》一書而聞名,在該書中他們指出人們的智力呈正態分佈。智力主要是遺傳的並因種族的不同而不同,猶太人、東亞人的智商最高,其次為白人,表現最差的是黑人、西班牙裔人。他們檢討了數十年來心理計量學與政策學的研究成果,發現美國社會輕忽了智商的影響愈變愈大的趨勢。他們力圖證明,美國現行的偏向於以非洲裔和南美裔為主的低收入階層的社會政策,如職業培訓、大學教育等,完全是在浪費資源。他們利用應募入伍者的測試結果證明,黑人青年的智力低於白人和黃種人;而且,這些人的智力已經定型,對他們進行培訓收效甚微。因此,政府應該放棄對這部分人的教育,把錢用於包括所有種族在內的啟蒙教育,因為孩子的智力尚未定型,開發潛力大。由於此書涉及黑人的智力問題,一經出版便受到來自四面八方的圍攻。