隨機取樣
隨機取樣
隨機取樣:統計學的中心問題就是如何根據樣本去探求有關總體的真實情況。因此,如何從一個總體中抽取一些元素組成樣本,什麼樣的樣本最能代表總體,這直接影響著統計的準確性。如果抽取元素的方法是使總體中的元素成分不改,所觀測到的數值是互相獨立的隨機變數,並有著和總體一樣的分佈,這樣的樣本是一個簡單的隨機樣本,它是總體的最好代表。而取得簡單隨機樣本的過程叫做簡單隨機取樣。
隨機抽樣 random sampling
亦稱“純隨機抽樣”、“簡單隨機抽樣”。
即按隨機性原則,從總體單位中抽取部分單位作為樣本進行調查,以其結果推斷總體有關指標的一種抽樣方法。
隨機原則是在抽取被調查單位時,每個單位都有同等被抽到的機會,被抽取的單位完全是偶然性的。
抽樣檢驗的基本形式,其特點是總體中每個單位被抽中的概率是相同的,完全由許多隨機因素綜合作用來決定,既排除了抽樣時人的主觀隨意性,也排除了人的主觀能動性。
當總體變異性大時,隨機抽得的樣本代表性差。
隨機抽得的樣本,稱為隨機樣本(random sample)。
一般地,從元素個數為N的總體中不放回地抽取容量為n的樣本,如果每一次抽取時總體中的各個個體有相同的可能性被抽到,這種抽樣方法叫做簡單隨機抽樣,這樣抽取的樣本,叫做簡單隨機樣本。1、抽籤法
抽籤法就是把總體中的N個個體編號,把號碼寫在號簽上,將號簽放在一個容器中,攪拌均勻后,每次從中抽取一個號簽,連續抽取n次,記下號簽上的號碼,就得到一個容量為n的樣本。
抽籤法的優點是簡單易行;缺點是,當總體的容量非常大時,費時、費力又不方便,況且,如果標號的紙片式小球攪拌得不均勻,可能導致抽樣的不公平。
2、隨機數表法
用抽籤法抽取樣本時,編號的過程有時可以省略(如用已有編號),但制籤的過程就難以省去了,而且,制籤也比較麻煩。簡化抽籤過程的一個有效辦法就是製作一個表,其中的每個數都是用隨機方法產生的,這樣的表稱為隨機數表。於是,我們只需按一定的規則到隨機數表中選取號碼就可以。這種抽樣方法叫隨機數表法。
用隨機數表法抽取樣本的步驟是:
①將總體中的所有的個體編號(每個號碼位數一致);
②在隨機數表中任選一數作為開始;
③從選定的數開始按一定的方向讀下去,得到的數碼若不在編號中,則跳過,若在編號中,則取出,如果得到的號碼前面已經取出,也跳過,如此繼續下去,直到取滿為止。
④根據選定的號碼抽取樣本。
一般地,假設要從容量為N的總體中抽取容量為n的樣本,可以按下列步驟進行系統抽樣:
(1)先將總體的N個個體編號,有時可直接利用個體自身所帶的號碼,如學號,准考證號,門牌號等;
(2)確定分段間隔k對編號進行分段,當(n是樣本容量)是整數的,取k=;
(3)在第一段用簡單隨機抽樣確定一個個體編號m(m≤k);
(4)按照一定的規則抽取樣本,通常是將m加上間隔k得到第2個個體編號(m+k),再加k得到第3個個體編號(m+2k),依次進行下去,直到獲取整個樣本。
注意:當不是整數時,令k=[],即先從總體中用簡單隨機抽樣的方法剔除N—nk個個體,再將其餘的編號的分成k段。
如:若用系統抽樣的方法從由21個個體組成的總體中用系統抽樣的方法抽一個容量為5的樣本,可如下操作:
S1:將21個個體用隨機方式編號;
S2:從總體中剔除一個個體(剔除方法可用隨機數表法),將剩下的20個個體重新編號(分別為00,01,02,…,19),並分成5段;
S3:再從第一段00,01,02,03這4個編號中用簡單隨機抽樣抽出一個(如03)作為起始號碼;
S4:將編號為03,07,11,15,19的個體抽出,組成樣本。
將總體中各個個體按某種特徵分成若干個互相重疊的幾部分,每一部分叫做層,在各層中按層在總體中所佔比例進行簡單隨機抽樣,這種抽樣方法叫做分層抽樣。
當總體由有明顯差別的幾部分組成時,為了使抽取的樣本更好地反映總體的情況,常採用分層抽樣。
分層抽樣的優點是,使樣本具有較強的代表性,而且在各層抽樣時,又可靈活地選用不同的抽樣法。
● 分層抽樣的步驟:
(1)將總體按一定標準進行分層;
(2)計算各層的個體數與總體的個體數的比;
(3)按各層的個體數佔總體的比確定各層應抽取的樣本容量;
(4)在每一層進行抽樣(可用簡單隨機抽樣或系統抽樣)。
● 分層抽樣的特點:
(1)適用於總體由差異明顯的幾部分組成的情況;
(2)更充分地反映了總體的情況;
(3)是等可能性抽樣,每個個體被抽到的可能都是n/N。
在實際統計調查時,一般先要確定調查的目的、對象,也就是統計調查要解決的問題和需要調查的總體,還要確定好調查的項目,也就是要統計的變數。
收集數據的方法通常有做試驗,查閱資料和設計調查問卷三種方法。
1、做試驗
通過設計一些合適的試驗,能夠直接地獲得樣本數據,如統計一顆骰子各點出現的頻率,就可做拋擲骰子試驗。
說明:
◆ 做試驗時需要注意的問題:
(1)準備好試驗用具;
(2)組織好觀測的對象;
(3)指定專門記錄的人員。
例如我們做拋擲骰子試驗來統計一枚骰子各個點數出現的頻率。在這個試驗中骰子就是要準備的用具,而試驗中得到的數據則需要有專門的人記錄。
◆ 做試驗的優點和缺點:
優點:做試驗通常能得到可靠的數據資料。
缺點:做試驗需要花費人力、物力、時間較多,有時帶有破壞性。
例如測試一批燈泡的使用壽命需要花費較長的時間。判斷山東省的成人平均身高是否為全國之最,需要花費大量的人力物力。要測試一批鋼筋的抗拉強度則具有破壞性。
2、查閱資料
有些數據不易直接調查到,通過查閱圖書館文獻或通過搜索網際網路上的相關資料等辦法獲得所需數據或相關數據。
說明:
◆ 查閱資料的優點和缺點:
優點:①查閱資料可以取得不容易直接調查得到的資料。如全國曆次人口普查的數據可以用查資料的方法得到,但不容易直接調查行到。
②查閱資料有時可以省去大量的人力、物力,如我們要了解某縣的常住人口數,可以直接查閱相關的資料,若要直接調查,起碼要動用大量的人力、物力。
③查閱資料有時可以減少破壞性。如:我們想知道從某廠購買的一批鋼筋的抗拉強度,只需查閱相關的資料即可,無需進行這種破壞性實驗。
缺點:有些數據無法從資料中查閱,必須直接調查。如某學校高一學生對未來的設想,這一問題我們就只能直接調查,而無法從資料中查找。
3、設計調查問卷
問卷一般由一組有目的、有系統、有順序的題目組成。
說明:
◆ 設計調查問卷的一般要求:
①意味著要避免一般性或不具體的問題,例如,調查消費者對某型號冰箱滿意程度應包含外觀、功能、價格三個方面,如果問題設計成這樣:
您對某型號冰箱是否滿意?
□1、滿意 □2、一般 □3、不滿意
則消費者可能對功能滿意而對價格不滿意而不知道怎樣去選擇,應將問題細化為三個方面:
滿意 一般 不滿意 您對某型號冰箱的外觀是否滿意? □ □ □ 您對某型號冰箱的功能是否滿意? □ □ □ 您對某型號冰箱的價格是否滿意? □ □ □ |
這樣才能了解消費者的真正想法,達到調查的目的。
②語言簡單、準確、含義清楚,避免出現歧義或意思含混的句子。
所問內容的定義要明確,便於受調查者準確的回答。例如,了解家庭情況時提問“您家裡有幾個孩子”,對於“孩子”的界定,不同的受調查可能有不同的理解,提問時就應明確孩子的定義。
③題目不能出現引導受調查者答題傾向的話語。例如:調查問題是“人家都認為國家足球隊肯定能小組出線,您的意見呢?”這種問法可能導致答卷者選擇小組出線的答案。
某單位有1002人(其中有 2 人體弱多病),現從中抽取 10 人參加市運動會,試用系統抽樣進行具體實施。【錯解一】按系統抽樣抽10人,要將1002人分成10段;而1002不是10的倍數,因此要從中先剔除2人,由於是參加運動會,對於體弱多病的2人來說,無任何意義,即便他們被抽到,也不可能去參加;所以直接剔除這兩個人,再對餘下的1000人分段即可。
錯解原因:隨機抽樣無論用哪一種抽樣方法,一個原則不能變:公平性。要保證總體中的每一個個體在總體中被抽到的可能性相同。顯然,上述處理失掉了這個原則,由於直接剔除2個體弱多病的個體,就使這兩人被抽到的可能性變為零,與公平性相悖,因此,這樣處理是錯的。
【錯解二】將1002人進行編號,得到號碼為1~1002,從這1~1002個號碼中用簡單隨機抽樣的方法,從中抽取兩個號碼,將這兩個號碼對應的人剔除;
然後把剩餘的1000個號碼,按從小到大的順序分成10段,先在第一段中用簡單隨機抽樣的方法抽取一個,譬如: a; 那麼將號碼100+a,200+a,… …,900+a,對應的人取出,此10人即為用系統抽樣抽取參加市運動會的10人。
錯解原因:表面上看“天衣無縫“,其實;這樣做有可能某一段中抽取了兩人,而有的段中又一人都沒有,如:假若最初剔除的兩個號碼,不妨設為2號、5號;那麼,再對剩餘號碼分組應該是這樣的:
第一段1,3,4,6,…,102;第二段103,104,…,202;第十段903,904,…,1002;當我們從第一組中隨機抽一個號碼,如果此號碼是“1”;按照上述的操作,就得到了10個號碼分別是:1,101,201,…,1001;可以看出第一段有兩個“1”與“101”,而最後一段一個也沒有。顯然,這樣處理不妥。
S1 將1002人進行編號,得到號碼為1~1002,從這1~1002個號碼中用簡單隨機抽樣的方法,將這兩個號碼對應的人剔除:
S2 將剩下的1000人再重新編號,得到號碼為1~1000;
S3 再對新號碼進行分段,第一段1~100;第二段101~200;…,第十段901~1000:
S4 在第一段用簡單隨機抽樣一個號碼,譬如:a;那麼將號碼:a, a+100, a+200, …,a+900對應的人取出,此10人即為用系統抽樣的的方法抽出的10人。
【點評】(1)正確認識抽樣過程的公平性;所謂“公平性”,是指在抽樣過程中對總體中的每個個體而言,不論是哪種抽樣方法,必須保證總體中的每個個體被抽取的可能性是相等的:
(2)正確認識樣本的代表性,樣本的代表性直接影響統計公平結果的可信度,一項統計做下來,耗費大量的人力、物力、財力,就亦成了最大的浪費。