共找到3條詞條名為非參數統計的結果 展開

非參數統計

數學概念

非參數統計(nonparametric statistics),數理統計學重要內容。研究非參數問題,探究非參數方法。非參數問題是指統計總體分佈形式未知或雖已知卻不能用有限個參數刻畫的統計問題。在多數場合下,與參數問題界線清楚,只在少數情況下會因為各人出發點不同而有不同看法。非參數方法有擬合優度檢驗、次序統計量、U統計量、秩統計量與秩方法、置換檢驗、非參數回歸與判別等等。非參數方法並非絕對只能解決非參數問題,有些也可用於典型的參數統計問題。非參數統計方法無法依賴總體的具體分佈形式,構造的統計量常與具體分佈無關,故又稱非參數方法為自由分佈方法。這樣,非參數方法的性能對分佈的實際形式如何並不敏感,即非參數方法常具較好的穩健性。非參數方法需要考慮在約束條件十分寬鬆的情況下使用,有可能導致效率的下降。非參數統計難以建立小樣本理論,基本屬於大樣本理論的內容。非參數統計形成於20世紀40年代,已成為一個體系龐大、理論精深且富有實用價值的統計分支。

簡介


非參數統計
非參數統計
非參數統計是統計學的一個重要分支,它在實踐中有著廣泛的應用。所謂統計推斷,就是由樣本觀察值去了解總體,它是統計學的基本任務之一。若根據經驗或某種理論我們能在推斷之前就對總體作一些假設,則這些假設無疑有助於提高統計推斷的效率。這種情況下的統計方法稱為“參數統計”。如果我們所知很少,以致於在推斷之前不能對總體作任何假設,或僅能作一些非常一般性(例如連續分佈、對稱分佈等)的假設,這時如果仍然使用參數統計方法,其統計推斷的結果顯然是不可信的,甚至有可能是錯的。在對總體的分佈不作假設或僅作非常一般性假設條件下的統計方法稱為“非參數統計”。
由於非參數統計方法與總體究竟是什麼分佈幾乎沒有什麼關係,所以它的應用範圍很廣,它在社會學、醫學、生物學心理學教育學等領域都有著廣泛的應用。由於有關於總體的假設,所以參數統計的推斷方法是針對這個假設的。相對而言,非參數統計的推斷方法是很一般的,它僅應用樣本觀察值中一些非常直觀(例如次序)的信息。所以非參數統計分析含有豐富的統計思想。

適用範圍


非參數統計最常用於具備下述特徵的情況:
1、待分析數據不滿足參數檢驗所要求的假定,因而無法應用參數檢驗。例如,我們曾遇到過的非正態總體小樣本,在t-檢驗法也不適用時,作為替代方法,就可以採用非參數檢驗。
2、僅由一些等級構成的數據,不能應用參數檢驗。例如,消費者可能被問及對幾種不同商標的飲料的喜歡程度,雖然,他們不能對每種商標都指定一個數字來表示他們對該商標的喜歡程度,卻能將幾種商標按喜歡的順序分成等級。這種情形也宜採用非參數檢驗。
3、所提的問題中並不包含參數,也不能用參數檢驗。例如,我們想判斷一個樣本是否為隨機樣本,採用非參數檢驗法就是適當的。
4、當我們需要迅速得出結果時,也可以不用參數統計方法而用非參數統計方法來達到目的。一般說來,非參數統計方法所要求的計算與參數統計方法相比,完成起來既快且易。有些非參數統計方法的計算,就算對統計學知識不熟練的人,也能在收集數據時及時予以完成。

特點


非參數統計問題中對總體分佈的假定要求的條件很寬,因而針對這種問題而構造的非參數統計方法,不致因為對總體分佈的假定不當而導致重大錯誤,所以它往往有較好的穩健性(見穩健統計),這是一個重要特點。但因為非參數統計方法需要照顧範圍很廣的分佈,在某些情況下會導致其效率的降低。不過,近代理論證明了:一些重要的非參數統計方法,當與相應的參數方法比較時,即使在最有利於後者的情況下,效率上的損失也很小。
由於非參數統計中對分佈假定要求的條件寬,因而大樣本理論(見大樣本統計)佔據了主導地位第二次世界大戰前,非參數統計的大樣本理論已有了一些結果,從20世紀50年代直到現代,更有了顯著的進展,尤其是關於秩統計量與U統計量的大樣本理論,及基於這種理論的大樣本非參數方法,研究成果很多。

優缺點


非參數統計與傳統的參數統計相比,有以下優點:
1、非參數統計方法要求的假定條件比較少,因而它的適用範圍比較廣泛。
2、多數非參數統計方法要求的運算比較簡單,可以迅速完成計算取得結果,因而比較節約時間。
3、大多數非參數統計方法在直觀上比較容易理解,不需要太多的數學基礎知識和統計學知識。
4、大多數非參數統計方法可用來分析如象由等級構成的數據資料,而對計量水準較低的數據資料,參數統計方法卻不適用。
5、當推論多達3個以上時,非參數統計方法尤具優越性。
但非參數統計方法也有以下缺點:
1、由於方法簡單,用的計量水準較低,因此,如果能與參數統計方法同時使用時,就不如參數統計方法敏感。若為追求簡單而使用非參數統計方法,其檢驗功效就要差些。這就是說,在給定的顯著性水平下進行檢驗時,非參數統計方法與參數統計方法相比,第Ⅱ類錯誤的概率β要大些。
2、對於大樣本,如不採用適當的近似,計算可能變得十分複雜。

舉例說明


例如,檢驗“兩個總體有相同分佈”這個假設,若假定兩總體的分佈分別為正態分佈N(μ1,σ2)和N(μ2,σ2),則問題只涉及三個實參數μ1,μ2,σ2,這是參數統計問題。若只假定兩總體的分佈為連續,此外一無所知,問題涉及的分佈不能用有限個實參數刻畫,則這是非參數統計問題。又如,估計總體分佈的期望μ,若假定總體分佈為正態 N(μ,σ2),則問題是參數性的;若只假定總體分佈的期望值存在,則問題是非參數性的。不過參數統計與非參數統計之間並沒有涇渭分明的界線。

統計方法


重要的非參數統計方法秩方法是基於秩統計量(見統計量)的一類重要的非參數統計方法。設有樣本X1,X2,…,Xn,把它們由小到大排列,若Xi在這個次序中占第Ri個位置(最小的占第1個位置),則稱Xi的秩為Ri(i=1,2,…,n)。1945年F.威爾科克森提出的"兩樣本秩和檢驗"是一個有代表性的例子。設X1,X2,…,Xm和Y1,Y2,…,Yn分別是從分佈為 F(x)和 F(x-θ)的總體中抽出的樣本,F連續但未知,θ也未知,檢驗假設 H:θ=0,備擇假設為θ>0(見假設檢驗)。記Yi在混合樣本(X1,X2,…,Xm,Y1,Y2,…,Yn)中的秩為Ri,且為諸秩的和,當W >C時,否定假設H,這裡C決定於檢驗的水平。這是一個性能良好的檢驗。秩方法的一個早期結果是C.斯皮爾曼於1904年提出的秩相關係數。設(X1,Y1),(X2,Y2),…,(Xn,Yn)是從二維總體(X,Y)中抽出的樣本,Ri為Xi在(X1,X2,…,Xn)中的秩,Qi為Yi在(Y1,Y2,…,Yn)中的秩,定義秩相關係數為(Ri,Qi)(i=1,2,…n)的通常的相關係數(見相關分析)。它可以作為X、Y之間相關程度的度量,也可用於檢驗關於X、Y獨立性的假設。
次序統計量和U 統計量在非參數統計中也有重要應用。前者可用於估計總體分佈的分位數(見概率分佈)、檢驗兩總體有相同的分佈及構造連續總體分佈的容忍限和容忍區間(見區間估計)等。後者主要用於構造總體分佈的數字特徵的一致最小方差無偏估計(見點估計)及基於這種估計的假設檢驗。
蘇聯數學家Α.Η.柯爾莫哥洛夫和Β.И.斯米爾諾夫在20世紀30年代的工作開闢了非參數統計的一個方面,他們的方法基於樣本X1,X2,…,Xn的經驗分佈函數Fn(x)(見樣本)。柯爾莫哥洛夫考察 Fn(x)與理論分佈F(x)的最大偏差墹n,當墹n超過一定限度時,否定這個理論分佈F(x)。這就是柯爾莫哥洛夫檢驗。斯米爾諾夫則考察由兩個分佈為F(x)和g(x)的總體中抽出的樣本X1,X2,…,Xm和Y1,Y2,…,Yn計算其經驗分佈Fm(x)和gn(x)的最大偏差墹mn,當墹mn超過一定限度時,否定“F與g相等”這個假設。這就是斯米爾諾夫檢驗
在非參數性估計方面,有關於估計分佈的對稱中心、概率密度函數回歸函數等比較重要的成果。

相關圖書


圖書信息
書名:非參數統計
ISBN:9787302191674
作者:王星
定價:37元
出版日期:2009-3-1
圖書簡介
本書是非參數統計教材,內容從經典非參數統計推斷到現代前沿,包括R基礎、基本概念、單一樣本的推斷問題、兩獨立樣本數據的位置和尺度推斷、多組數據位置推斷、分類數據的關聯分析、秩相關和分位數回歸、非參數密度估計、一元非參數回歸和數據挖掘與機器學習共計10章. 本書配有大量與社會、經濟、金融、生物等專業相關的例題和習題,給出示範解答過程,方便自學.
本書可以作為高等院校統計、經濟、金融、管理專業的本科生課程的教材,也可以作為其他相關專業研究生的教材和教學參考書,另外,對廣大從事與統計相關工作的實際工作者也極具參考價值.
目錄
第1章
基本概念和操作
環境
常量
算術運算
賦值
向量的生成和基本操作
向量的生成
向量的基本操作
向量的運算
向量的邏輯運算
高級數據結構
矩陣的操作和運算
數組
數據框
列表
數據處理
保存數據
讀入數據
數據轉換
編寫程序
循環和控制
函數
基本統計計算
抽樣
統計分布圖形功能
函數
多圖顯示
幫助和包
習題
第2章
基本概念
非參數統計概念與產生
假設檢驗回顧
經驗分佈和分佈探索
經驗分佈
生存函數
檢驗的相對效率
分位數和非參數估計
統計量
習題
第3章
單一樣本的推斷問題
符號檢驗和分位數推斷
基本概念
大樣本計算
符號檢驗在配對樣本比較中的應用
分位數檢驗------符號檢驗的推廣趨勢存在性檢驗
隨機遊程檢驗
基本概念
符號秩檢驗和抽樣分佈
單組數據的位置參數置信區間估計
順序統計量位置參數置信區間估計
基於方差估計法的位置參數置信區間估計
正態記分檢驗
擬合優度檢驗
正態性檢驗
正態分佈檢驗
單一總體漸近相對效率比較
習題
第4章
兩獨立樣本數據的位置和尺度推斷中位數檢驗
秩和檢驗
方差檢驗
習題
第5章
多組數據位置推斷
試驗設計和方差分析的基本概念回顧
檢驗
秩方差分析法
隨機區組數據的調整秩和檢驗
檢驗
不完全區組分析法
習題
第6章
分類數據的關聯分析
s$列聯表和$\chi^2$獨立性檢驗
精確性檢驗檢驗
關聯規則
關聯規則基本概念
演演算法
檢驗法
對數線性模型
對數線性模型的基本概念
模型的設計矩陣
模型的估計和檢驗
高維對數線性模型和獨立性
習題
第7章
秩相關和分位數回歸
秩相關檢驗
相關檢驗
多變數
協和係數檢驗
一致性檢驗
中位數回歸係數估計法
線性分位回歸模型
習題
第8章
非參數密度估計
直方圖密度估計
核密度估計
核函數的基本概念
貝葉斯決策和非參數密度估計
習題
第9章
一元非參數回歸
核回歸光滑模型
局部多項式回歸
局部線性回歸
局部多項式回歸的基本原理
近鄰回歸
正交序列回歸
罰最小二乘法
習題
第10章
數據挖掘與機器學習
分類一般問題
回歸模型
回歸模型的極大似然估計}
回歸和線性判別函數LDA
決策樹
決策樹基本概念
決策樹的剪枝
回歸樹
決策樹的特點
演演算法
最大邊距分類
支持向量機問題的求解
支持向量機的核方法
隨機森林樹
隨機森林樹演演算法的定義
隨機森林樹演演算法的性質
如何確定隨機森林樹演演算法中樹的節點分裂變數
隨機森林樹的回歸演演算法
有關隨機森林樹演演算法的一些評價
多元自適應回歸樣條的一些性質}
附錄
參考文獻
出版者:中國統計出版社 書名:《非參數統計》(第二版)作者:吳喜之 編著 開本:18開 字數:21萬字 出版時間:2006.10出版 定價:29.00元/冊 書號:ISBN 7-5037-4997-0/O.59
內容介紹:
在初等統計學中,最基本的概念是總體,樣本,隨機變數,分佈,估計和假設檢驗等,其很大一部分內容是和正態理論相關的。在那裡,總體的分佈形式或分佈族往往是給定的或者是假定了的。然而,在實際生活中, 那種對總體的分佈的假定並不是能隨便做出的。有時,數據並不是來自所假定分佈的總體;或者,數據根本不是來自一個總體;還有可能,數據因為種種原因被嚴重污染。這樣,在假定總體分佈的情況下進行推斷的做法就可能產生錯誤的、甚至災難性的結論。於是,人們希望在不假定總體分佈的情況下,盡量從數據本身來獲得所需要的信息。這就是非參數統計的宗旨。
《非參數統計》涉及了如下內容:單樣本、兩樣本和多樣本位置參數的推斷,兩樣本和多樣本尺度參數的推斷,相關分析和穩健回歸分析,關於分佈的檢驗等基於秩的非參數統計的內容;還涉及了與非參數統計方法有一定關係的對數線性模型,和並不是基於秩的非參數回歸。
它區別於國內的其他介紹非參數統計的著作的特點是:盡量用嚴謹而平實的語言和簡單的公式介紹統計方法的思想和邏輯。而且本書作者還親自編寫了實現統計方法的R程序、SAS程序和SPSS程序的操作說明。
本書適合那些有初等統計基礎,從事與應用統計相關,如醫學,管理學等領域研究或實踐的人員學習。當然本書也適合統計研究或實踐的。本書為普通高等教育“十一五”國家級規劃教材。
數學·包含學科
14 邏輯與基礎▪ 1410:演繹邏輯學▪ 1420:證明論▪ 1430:遞歸論▪ 1440:模型論▪ 1450:公理集合論▪ 1460:數學基礎▪ 1499:數理邏輯與數學基礎其他學科
17 數論▪ 1710:初等數論▪ 1720:解析數論▪ 1730:代數數論▪ 1740:超越數論▪ 1750:丟番圖逼近▪ 1760:數的幾何▪ 1770:概率數論▪ 1780:計算數論▪ 1799:數論其他學科
21 代數學▪ 2110:線性代數▪ 2115:群論▪ 2120:域論▪ 2125:李群▪ 2130:李代數▪ 2135:Kac-Moody代數▪ 2140:環論▪ 2145:模論▪ 2150:格論▪ 2155:泛代數理論▪ 2160:範疇論▪ 2165:同調代數▪ 2170:代數K理論▪ 2175:微分代數▪ 2180:代數編碼理論▪ 2199:代數學其他學科
27 幾何學▪ 2710:幾何學基礎▪ 2715:歐氏幾何學▪ 2720:非歐幾何學▪ 2725:球面幾何學▪ 2730:向量和張量分析▪ 2735:仿射幾何學▪ 2750:分數維幾何▪ 2740:射影幾何學▪ 2745:微分幾何學▪ 2755:計算幾何學▪ 2799:幾何學其他學科
31 拓撲學▪ 3110:點集拓撲學▪ 3115:代數拓撲學▪ 3120:同倫論▪ 3125:低維拓撲學▪ 3130:同調論▪ 3135:維數論▪ 3140:格上拓撲學▪ 3145:纖維叢論▪ 3150:幾何拓撲學▪ 3155:奇點理論▪ 3160:微分拓撲學▪ 3199:拓撲學其他學科
34 數學分析▪ 3410:微分學▪ 3420:積分學▪ 3430:級數論▪ 3499:數學分析其他學科
41 函數論▪ 4110:實變函數論▪ 4120:單複變函數論▪ 4130:多複變函數論▪ 4140:函數逼近論▪ 4150:調和分析▪ 4160:複流形▪ 4170:特殊函數論▪ 4199:函數論其他學科
44 常微分方程▪ 4410:定性理論▪ 4420:穩定性理論▪ 4430:解析理論▪ 4499:常微分方程其他學科
47 偏微分方程▪ 4710:橢圓型偏微分方程▪ 4720:雙曲型偏微分方程▪ 4730:拋物型偏微分方程▪ 4740:非線性偏微分方程▪ 4799:偏微分方程其他學科
51 動力系統▪ 5110:微分動力系統▪ 5120:拓撲動力系統▪ 5130:復動力系統▪ 5199:動力系統其他學科
57 泛函分析▪ 5710:線性運算元理論▪ 5715:變分法▪ 5720:拓撲線性空間▪ 5725:希爾伯特空間▪ 5730:函數空間▪ 5735:巴拿赫空間▪ 5740:運算元代數▪ 5745:測度與積分▪ 5750:廣義函數論▪ 5755:非線性泛函分析▪ 5799:泛函分析其他學科
61 計算數學▪ 6110:插值法與逼近論▪ 6120:常微分方程數值解▪ 6130:偏微分方程數值解▪ 6140:積分方程數值解▪ 6150:數值代數▪ 6160:連續問題離散化方法▪ 6170:隨機數值實驗▪ 6180:誤差分析▪ 6199:計算數學其他學科
64 概率論▪ 6410:幾何概率▪ 6420:概率分佈▪ 6430:極限理論▪ 6440:隨機過程▪ 6450:馬爾可夫過程▪ 6460:隨機分析▪ 6470:鞅論▪ 6480:應用概率論▪ 6499:概率論其他學科
67 數理統計學▪ 6710:抽樣理論▪ 6715:假設檢驗▪ 6720:非參數統計▪ 6725:方差分析▪ 6730:相關回歸分析▪ 6735:統計推斷▪ 6740:貝葉斯統計▪ 6745:試驗設計▪ 6750:多元分析▪ 6755:統計判決理論▪ 6760:時間序列分析▪ 6799:數理統計學其他學科
71 應用統計數學▪ 7110:統計質量控制▪ 7120:可靠性數學▪ 7130:保險數學▪ 7140:統計模擬▪ 7199:應用統計數學其他學科
74 運籌學▪ 7410:線性規劃▪ 7415:非線性規劃▪ 7420:動態規劃▪ 7425:組合最優化▪ 7430:參數規劃▪ 7435:整數規劃▪ 7440:隨機規劃▪ 7445:排隊論▪ 7450:對策論▪ 7460:決策論▪ 7455:庫存論▪ 7465:搜索論▪ 7470:圖論▪ 7475:統籌論▪ 7480:最優化▪ 7499:運籌學其他學科
其他二級學科▪ 11:數學史▪ 24:代數幾何學▪ 37:非標準分析▪ 54:積分方程▪ 77:組合數學▪ 81:離散數學▪ 84:模糊數學▪ 87:應用數學▪ 99:數學其他學科
學科前數字為國家標準學科代碼