數理統計學
統計學的數學基礎
數理統計學是統計學的數學基礎,從數學的角度去研究統計學,為各種應用統計學提供理論支持。它研究怎樣有效地收集、整理和分析帶有隨機性的數據,以對所考察的問題作出推斷或預測,直至為採取一定的決策和行動提供依據和建議的數學分支。英國是數理統計的發源地和研究中心,但從第二次世界大戰開始,美國也發展得很快。近幾十年來,數理統計的廣泛應用是非常引人注目的。在社會科學中,選舉人對政府意見調查、民意測驗、經濟價值的評估、產品銷路的預測、犯罪案件的偵破等,都有數理統計的功勞。在自然科學、軍事科學、工農業生產、醫療衛生等領域,哪一個門類都離開數理統計。
(圖)數理統計學
萊爾根據各個地層中的化石種類和現仍在海洋中生活的種類作出百分率,然後定出更新世、上新世、中新世、始新世的名稱。並於1830~1833年出版了
(圖)萊爾研究數理統計學
生物學家達爾文關於進化論的工作主要是生物統計的,他在乘坐“貝格爾”號軍艦到美洲的旅途上帶著萊爾的上述著作,二者看來不無關係。
具體地說與人們生活有關的如某種食品營養價值高低的調查;通過用戶對家用電器性能指標及使用情況的調查,得到全國某種家用電器的上榜品牌排名情況;一種藥品對某種疾病的治療效果的觀察評價等都是利用數理統計方法來實現的。
飛機、艦艇、衛星、電腦及其它精密儀器的製造需要成千上萬個零部件來完成,而這些零件的壽命長短,性能好壞均要用數理統計的方法進行檢驗才能獲得。
在經濟領域,從某種商品未來的銷售情況預測到某個城市整個商業銷售的預測,甚至整個國家國民經濟狀況預測及發展計劃的制定都要用到數理統計知識。
數理統計用處之大不勝枚舉。可以這麼說,現代人的生活、科學的發展都離不開數理統計。從某種意義上來講,數理統計在一個國家中的應用程度標誌著這個國家的科學水平。
難怪在談到數理統計的應用時,有人稱讚它的用途像水銀落地是無孔不入的,這恐怕並非言過其實。
數理統計學是伴隨著概率論的發展而發展起來的。19世紀中葉以前已出現了若干重要的工作,如C.F.高斯和A.M.勒讓德關於觀測數據誤差分析和最小二乘法的研究。到19世紀末期,經過包括K.皮爾森在內的一些學者的努力,這門學科已開始形成。但數理統計學發展成一門成熟的學科,則是20世紀上半葉的事,它在很大程度上要歸功於K.皮爾森、R.A.費希爾等學者的工作。特別是費希爾的貢獻,對這門學科的建立起了決定性的作用。1946年H.克拉默發表的《統計學數學方法》是第一部嚴謹且比較系統的數理統計著作,可以把它作為數理統計學進入成熟階段的標誌。
數理統計學的發展大致可分3個時期。
第一時期:20 世紀以前。這個時期又可分成兩段,大致上可以把高斯和勒讓德關於最小二乘法用於觀測數據的誤差分析的工作作為分界線,前段屬萌芽時期,基本上沒有超出描述性統計量的範圍。后一階段可算作是數理統計學的幼年階段。首先,強調了推斷的地位,而擺脫了單純描述的性質。由於高斯等的工作揭示了正態分佈的重要性,學者們普遍認為,在實際問題中遇見的幾乎所有的連續變數,都可以滿意地用正態分佈來刻畫。這種觀點使關於正態分佈的統計得到了深入的發展,但延緩了非參數統計的發展。19世紀末,K.皮爾森給出了以他的名字命名的分佈,並給出了估計參數的一種方法——矩法估計。德國的F.赫爾梅特發現了統計上十分重要的x2 分佈。
第二時期:20世紀初到第二次世界大戰結束。這是數理統計學蓬勃發展達到成熟的時期。許多重要的基本觀點和方法,以及數理統計學的主要分支學科,都是在這個時期建立和發展起來的。這個時期的成就,包含了至今仍在廣泛使用的大多數統計方法。在其發展中,以英國統計學家、生物學家費希爾為代表的英國學派起了主導作用。
第三時期:戰後時期。這一時期中,數理統計學在應用和理論兩方面繼續獲得很大的進展。
(圖)數理統計學
第一類分支學科是抽樣調查和試驗設計。它們主要討論在觀測和實驗數據的收集中有關的理論和方法問題,但並非與統計推斷無關。
第二類分支學科為數甚多,其任務都是討論統計推斷的原理和方法。各分支的形成是基於:
①特定的統計推斷形式,如參數估計和假設檢驗。
②特定的統計觀點,如貝葉斯統計與統計決策理論。
③特定的理論模型或樣本結構,如非參數統計、多元統計分析、回歸分析、相關分析、序貫分析,時間序列分析和隨機過程統計。
第三類是一些針對特殊的應用問題而發展起來的分支學科,如產品抽樣檢驗、可靠性統計、統計質量管理等。
用數理統計方法去解決一個實際問題時,一般有如下幾個步驟:建立數學模型,收集整理數據,進行統計推斷、預測和決策。這些環節不能截然分開,也不一定按上述次序,有時是互相交錯的。
①模型的選擇和建立。在數理統計學中,模型是指關於所研究總體的某種假定,一般是給總體分佈規定一定的類型。建立模型要依據概率的知識、所研究問題的專業知識、以往的經驗以及從總體中抽取的樣本(數據)。
②數據的收集。有全面觀測、抽樣觀測和安排特定的實驗3種方式。全面觀測又稱普查,即對總體中每個個體都加以觀測,測定所需要的指標。抽樣觀測又稱抽查,是指從總體中抽取一部分,測定其有關的指標值。這方面的研究內容構成數理統計的一個分支學科。叫抽樣調查。
③安排特定實驗以收集數據,這些特定的實驗要有代表性,並使所得數據便於進行分析。這裡面所包含的數學問題,構成數理統計學的又一分支學科,即實驗設計的內容。
④數據整理。目的是把包含在數據中的有用信息提取出來。一種形式是制定適當的圖表,如散點圖,以反映隱含在數據中的粗略的規律性或一般趨勢。另一種形式是計算若干數字特徵,以刻畫樣本某些方面的性質,如樣本均值、樣本方差等簡單描述性統計量。
⑤統計推斷。指根據總體模型以及由總體中抽出的樣本,作出有關總體分佈的某種論斷。數據的收集和整理是進行統計推斷的必要準備,統計推斷是數理統計學的主要任務。
⑥統計預測。統計預測的對象,是隨機變數在未來某個時刻所取的值,或設想在某種條件下對該變數進行觀測時將取的值。例如,預測一種產品在未來3年內的市場銷售量,某個10歲男孩在3年後的身高,體重等等。
⑦統計決策。依據所做的統計推斷或預測,並考慮到行動的後果(以經濟損失的形式表示)而制定的一種行動方案。目的是使損失儘可能小,或反過來說,使收益儘可能大。例如,一個商店要決定今年內某種產品的進貨數量,商店的統計學家根據抽樣調查,預測該產品本店今年銷售量為1000件。假定每積壓一件產品損失20元,而少銷售一件產品則損失10元,要據此作出關於進貨數量的決策。
數理統計方法在工農業生產、自然科學和技術科學以及社會經濟領域中都有廣泛的應用。
①在農業中,對田間試驗進行適當的設計和統計分析。
②實驗設計法、回歸設計和回歸分析、方差分析、多元分析等統計方法,在工業生產的試製新產品和改進老產品、改革工藝流程、使用代用原材料和尋求適當的配方等問題中起著廣泛的作用,統計質量管理在控制工業產品的質量中起著十分重要的作用。
③醫學是較早使用數理統計方法的領域之一。在防治一種疾病時,需要找出導致這種疾病的種種因素。統計方法在發現和驗證這些因素上,是一個重要工具。另一方面的應用是,用統計方法確定一種藥物對治療某種疾病是否有用,用處多大,以及比較幾種藥物或治療方法的效力。
④在自然科學和技術科學中,如統計方法用於地震、氣象和水文方面的預報、地質資源的評介等。
⑤在社會、經濟領域方面,如人口調查和預測,心理學中能力方面的分析等。
1.由於數理統計是一門實用性極強的學科,在學習中要緊扣它的實際背景,理解統計方法的直觀含義。了解數理統計能解決那些實際問題。對如何處理抽樣數據,並根據處理的結果作出合理的統計推斷,該結論的可靠性有多少要有一個總體的思維框架,這樣,學起來就不會枯燥而且容易記憶。例如估計未知分佈的數學期望,就要考慮到① 如何尋求合適的估計量的途徑,②如何比較多個估計量的優劣。這樣,針對①按不同的統計思想可推出矩估計和極大似然估計,而針對②又可分為無偏估計、有效估計、相合估計,因為不同的估計名稱有著不同的含義,一個具體估計量可以滿足上面的每一個,也可能不滿足。掌握了尋求估計的統計思想,具體尋求估計的步驟往往是“套路子”的,並不困難,然而如果沒有從根本上理解,僅死背套路子往往會出現各種錯誤。
2.許多同學在學習數理統計過程中往往抱怨公式太多,置信區間,假設檢驗表格多而且記不住。事實上概括起來只有八個公式需要記憶,而且它們之間有著緊密聯繫,並不難記,而區間估計和假設檢驗中只是這八個公式的不同運用而已,關鍵在於理解區間估計和假設檢驗的統計意義,在理解基礎上靈活運用這八個公式,完全沒有必要死記硬背。
(圖)股票分析系統
在農業上,有關選種,耕作條件,肥料選擇等一系列的問題的解決,都與統計方法的應用有關,在歷史上,現行的一些重要的統計設計與分析方法,就是近代最偉大的數理統計學家費歇爾於上世紀20年代在英國一個農業試驗站工作時,因研究田間試驗的問題而發明的。
醫學與生物學是統計方法應用最多的領域之一,統計學是在有變異的數據中研究和發現統計規律的科學,就醫學而言,人體變異是一個重要的因素,不同的人的情況千差萬別,其對一種藥物和治療方法的反應也各不相同,因此,對一種藥物和治療方法的評價,是一種統計性規律的問題,不少國家對一種新葯的上市和一種治療方法的批准,都設定了很嚴格的試驗和統計檢驗的要求,又如:許多生活習慣(如吸煙、飲酒、高鹽飲食之類)對健康的影響,環境污染對健康的影響,都要通過收集大量數據進行統計分析來研究。
對社會現象的研究大量地使用統計方法,因為組成社會的單元——人、家庭、單位、地區等,都有很大的變異性,如果說,在自然現象中還不乏一些(在誤差可以允許的限度內)嚴格的、確定性的規律,在社會現象中這種規律則絕少,因此只能從統計的角度去考察,我們常說,某某措施,某某政策,對大多數人是有利的,這就是一種統計性規律,因為這種“有利”是指對大多數,而非一切人。在20世紀初,就有統計學家研究過在英國幾種救助貧困的方式的效果的評估,這都是藉助抽樣調查並通過複雜的統計分析得出的結果,如今,抽樣調查已經成為研究社會現象的一種最有力的工具,因為全面調查往往不可行,而抽樣調查,從其方案的制定到數據的分析,都是以數理統計學的理論和方法為基礎。
(圖)費歇爾
年輕的費歇爾主要的研究工作是用數學將樣本的分佈給以嚴格的確定。在一般人看來枯燥乏味的數學,常能帶給研究者極大的慰藉,費歇爾熱衷於數理統計的研究工作,後來的理論研究成果有:數據信息的測量、壓縮數據而不減少信息、對一個模型的參數估計等。
最使科學家稱讚的工作則是試驗設計,它將一切科學試驗從某一個側面“科學化”了,不知節省了多少人力和物力,提高了若干倍的工效。
費歇爾培養了一個學派,其中有專長純數學的,有專長應用數學的。在30-50年代費歇爾是統計學的中心人物。1959年費歇爾退休后在澳大利亞度過了最後三年。
[1]中教育星多媒體資源庫 http://rcs.wuchang-edu.com/RESOURCE/XX/XXZR/ZRBL/SJDFXSXWL/6273_SR.HTM
[2]新浪考試 http://edu.sina.com.cn/zikao/2007-09-20/1635101649.shtml
[3]教師網聯 http://www.jswl.cn/course/A1018/kecheng/chenxiru/shulitongji_chen_3.htm