漸近分佈
漸近分佈
在抽樣分佈理論中,來自正態總體的統計量中,以三大重要分佈為代表的一些精確的抽樣分佈,它們的應用很廣,但為數不多。在其他情況下,總體為非正態總體或者總體的分佈未知時,抽樣分佈都不易導出,或導出過於複雜而難於應用。文章利用大樣本的方法,結合Slutsky定理,研究了來自一般總體的幾個統計量,推出了它們的漸近分佈。
在樣本量無限增大時,統計量X(X,X,...X)的極限分佈作為抽樣分佈的一種近似,這種極限分佈常稱為漸近分佈。統計推斷的理論與方法貫穿於現代統計中,抽樣分佈理論是進行統計推斷的基礎。在抽樣分佈理論中,已導出的χ 分佈,t分佈,F分佈等,它們以來自正態總體、抽樣分佈的精確性、應用的廣泛性、為數不多尤為重要。但在其他情況下,總體為非正態總體或者總體的分佈未知時,抽樣分佈都不易導出,或導出過於複雜而難於應用,這迫使人們去尋求其近似分佈。利用大樣本的方法,結合Slutsky定理,研究了總體是一般分佈或者分佈未知情況下的幾種統計量A 、 B及其函數等,推出了它們的漸近分佈。
在抽樣分佈理論中,正態總體是實際中經常用到的一個總體,來自該總體的分佈,χ 分佈,t分佈,F分佈等一批精確分佈,應用非常廣泛,但為數不多。相對於正態總體來說,總體為非正態總體或者總體的分佈未知時,要求抽樣分佈的精確分佈是非常不容易的,或導出過於複雜而難於應用。
在總體為任意分佈或者分佈未知的情況下,利用大樣本方法,並結合Slutsky等引理,可以得到一些統計量的漸近分佈。而且這些方法具有可推廣的意義,只要能構造合適的函數,就可以得到更多的抽樣分佈,以便進行進一步的統計推斷。
採用統計方法推算極值風速的誤差主要來自3個方面:樣本選取、模型選取和參數估計。年最大風速最初被認為服從極值II型,後來更多的研究表明極值風速取極值I型更好。研究發現,極值風速的有界性,與前2種極值分佈的右部尾部長度(up—per taillength)無限長的特性相違背,而與極值III型分佈右部尾部長度有限長的特性符合,因而選取極值III型分佈最合適。採用跨閾法(Peak Over nresh—old,POT)選取樣本的廣義跨閾分佈GPD模型(GeneralizedParato Distribution)能較好地彌補樣本不足給參數估計帶來的困難,同時給出較好的風速估計心。
利用重慶市沙坪壩區1990—1999年間的短期風速資料來進行年最大風速的極值分佈分析。首先分別採用極值I型(Gumbel)分佈、極值II型(Frechet)分佈和極值III型(reverse weibuu)分佈擬合年最大風速的極值分佈,而後選取1990一1994年問各月最大風速作為樣本,使樣本容量擴大為60個來擬合最大風速的月極值的漸進分佈。依據最小二乘法的原理、矩法和變數替換法分別對3種極值分佈函數進行參數估計,通過參數估計優良性指標,比較短期風速資料下的年最大風速的分佈函數與月極值漸進分佈函數的擬合效果,從得到的4組12個分佈函數中選取較好的一種極值分佈函數作為年最大風速的極值分佈函數。最後通過與GPD的參數估計指標及風速估計結果比較分析,得到短期風速資料下重慶年最大風速極值的最優漸進分佈。
極值Ⅲ型(reverse weibull)分佈給出了最佳的擬合優度和極值風速估計值且對於缺少長期風速觀測資料的地區,採用對有限的短期資料進行月最大風速的分析來擬合該地區的風速極值漸進分佈,效果明顯優於採用年最大風速記錄。從某種意義上來說樣本容量的提高,使抽樣誤差減小了。
氣象要素極值作為氣候隨機變數在數學意義上是不穩定的,但它們隨時間變化過程在概率上卻是穩定的。因此,氣象要素極值的分佈可能用分佈函數去模擬,從而為氣象極端事件出現概率的預測提供理論依據和數據參考。分佈函數的具體形式因隨機變數的特性而異,試驗表明:某些氣象要素極值,例如氣溫極值和風速極值的漸近分佈,能以很高的擬合精度遵循三參數韋伯分佈或耿貝爾分佈。故選用三參數韋伯分佈和耿貝爾分佈作為已知分佈函數,擬合重慶地面最高氣溫和最大風速年極值的漸近分佈。用重慶40年(1951 —1990)的地面最高氣溫年極值資料和30年(1956 —1990 )的最大風速年極值資料,其中最大風速年極值有些年份無記錄值,故只有30年作為樣本容量,對擬合參數進行估計,並通過比較表徵參數估計優良性的指標,選取較好的一種作為重慶地面最高氣溫和最大風速年極值的漸近分佈函數。
利用重慶1951—1990年40年間的地面最高氣溫年極值和1956—1990年間地面最大風速年極值記錄,用韋伯分佈和耿貝爾分佈分別對它們進行擬合實驗,並對其中的參數進行估算。計算了擬合標準差、擬合相對偏差、柯爾莫哥洛夫擬合適度,從中選出這三個值較小的分佈模式作為假設分佈,然後通過統計檢驗,最後確定出重慶地面最高氣溫和最大風速年極值應遵循的漸近分佈。
從統計檢驗可以發現:重慶地區的最大風速年極值的漸近分佈的擬合效果比最高氣溫年極值漸近分佈的擬合效果差,其檢驗統計量比最高氣溫年極值的大。主要原因如下:(1)受資料來源的限制,最大風速年極值的樣本容量比最高氣溫年極值的樣本容量小。我國大部分測站只有解放以後的氣象資料,而且最大風速年極值有些缺記錄,風速漏報等原因而造成樣本容量小。(2)最大風速年極值受各種因素的影響如風的陣性、測站位置、周邊環境、儀器和安裝方法的更新、觀測時制的改變、站址的改變(重慶站在我們所取資料的時段內曾有陳家坪和沙坪壩站址的轉換)等原因都可能使觀測序列發生改變,這些變化不是實際氣候變化的反映,因而破壞了資料的均一性,而使其變化更不規則,不穩定,即其均一性欠佳。特別是當風速大於20M/S 時,出現的機率很小。(3)風速測量儀器的觀測準確度遠小於溫度觀測。所有這些都會使最大風速年極值的漸近分佈的擬合效果比最高氣溫年極值漸近分佈的擬合效果差。重慶地面最高氣溫年極值的漸近分佈用韋伯分佈或耿貝爾分佈均可,但用韋伯分佈擬合更精確。