經驗分佈函數
經驗分佈函數
統計學中,經驗分佈函數是與樣本經驗測度相關的分佈函數。該分佈函數是在n個數據點中的每一個上都跳躍1 / n的階梯函數。其在測量變數的任何指定值處的值是小於或等於指定值的測量變數的觀測值的數。經驗分佈函數是對樣本中生成點的累積分佈函數的估計。根據Glivenko-Cantelli定理,它以概率1收斂到該基礎分佈。同時也存在一些結果來量化經驗分佈函數與潛在的累積分佈函數的收斂速度。
令 是獨立的、相同分佈的且具有共同的累積分佈函數 的實隨機變數。然後將它們按從小到大的順序重新排列為,對於任意實數x,定義函數
則稱為總體X的經驗分佈函數。它還可以簡記為
其中表示中不大於x的個數。
另外一種常見的表示形式為:
因此,求經驗分佈函數在一點x處的值,只要求出隨機變數X的n個觀測值中小於或等於x的個數,再除以觀測次數n即可。由此可見,就是在n次重複獨立實驗中事件出現的頻率。
經驗分佈函數的圖形(如下圖所示)是一條呈跳躍上升的。如果樣本觀測值中沒有重複的數值,則每一跳躍為,若有重複L次的值,則按的L倍跳躍上升。圖中圓滑曲線是總體X的理論分佈函數F(x)的圖形。若把經驗分佈函數的圖形連成折線,那麼它實際就是累積頻率直方圖的上邊。
這和概率分佈函數的性質是一致的。
經驗分佈函數
由於n變為無窮大時,趨近於1,所以上面給出的兩個定義的漸近性是相同的。
根據大量強定律,對於t的每個值,估計 收斂於:
因此估計 是一致的。這個表達式將經驗分佈函數與真實的累積分佈函數進行點趨同。有一個稱為Glivenko-Cantelli定理的更強的結果,它說明了趨同在t上均勻地發生:
這個表達式中的範圍稱為柯爾莫哥洛夫 - 斯米爾諾夫統計量,用於測試經驗分佈 和假想的累積分佈函數。其他規範函數可以在這裡合理使用。例如,范數產生了Cramér-von Mises統計量。
Donsker定理的統一收斂速度可以通過被稱為匈牙利嵌入的結果來量化:
或者,也可以用這個表達式的漸近行為進行量化。
事實上,柯爾莫哥洛夫已經表明,如果累積分佈函數F是連續的,則表達式 收斂於,它的柯爾莫哥洛夫分佈不依賴於F的形式。