輔助變數

輔助變數

3、利用輔助變數比例作為抽樣單元的抽取概率,實施不等概率抽樣。輔助變數的使用利用輔助變數進行抽樣設計有兩種目的:一是用於改進抽樣方法,二是用於改進估計量。 1、利用輔助變數對總體進行分層分層抽樣是實際工作中使用頻率較高的一種抽樣方法,適用於輔助變數有兩個或兩個以上的情形。

輔助變數的分類


輔助變數就其性質而言可分為以下幾類:
1、反映總體結構的信息。如總體抽樣單元按調查指標取值差異程度可分為若干層,各層的構成及其在總體中所佔比重等信息就是反映總體結構的。
2、規模的信息。如在總體分為不同級別的抽樣單元時,要知道某一級別抽樣單元數目,就可以用它所包含的下一級別抽樣單元的數目或其它度量值來表示這一抽樣單元的規模或大小。
3、是與所調查指標有密切關係的輔助指標的信息。例如在對居民消費支出情況進行調查時,居民可支配收入就是一個與支出有著高度相關性的輔助指標,這種輔助指標的信息可以是總體的,也可以是抽樣單元和樣本的。
4、調查指標的相關歷史信息。例如,在一些經常性的抽樣調查中,常取上期調查指標作為現期調查指標的輔助指標,有時也可用同一調查項目的近期普查指標作為現期抽樣調查指標的輔助指標,這時輔助指標提供的信息就是調查指標的歷史信息。

輔助變數的作用


輔助變數的作用主要體現在兩個方面:一是改進抽樣方法,提高樣本對總體的代表性。二是改進估計方法,縮小估計誤差,提高估計精度。對於第一個方面主要有以下三種作用方式。
1、輔助變數在分層抽樣中的作用。
分層抽樣是在實際工作中使用頻率較高的一種抽樣方法,分層抽樣的效率主要取決於總體層內的方差與層間的方差。利用輔助變數對總體進行分層可以有效地縮小層內的方差,擴大層間方差。降低總體層內方差與層問方差的比值,從而大大提高抽樣估計的效率。
2、輔助變數在系統抽樣中的作用。
對稱等距抽樣適用於對線性趨勢總體的抽樣設計,但我們在實際工作中所面對的總體大多是非線性的,利用輔助變數對研究總體排序,可以把非線性的總體線性趨勢化,在此基礎上實施對稱等距抽樣是提高抽樣效率的一種有效方法。
3、利用輔助變數比例作為抽樣單元的抽取概率,實施不等概率抽樣。
特別是以群作為抽樣單位的不等概率抽樣,可以有效的消除等概率整群抽樣的“數水平效應”和“比率數變異度效應”,提高整群抽樣的效率。利用輔助變數可以實施不等概率抽樣,以改進抽樣設計
對於第二個方面也有較常見的應用,例如,利用輔助變數建立比率估計量和回歸估計量。對總體均值或總值構造比率或回歸估計量,是從估計環節改善抽樣設計的重要手段,但這兩種估計方法都需要有相應的輔助變數,並且需要獲得輔助變數的總體均值或總值。此外,除了以上兩種輔助變數作用以外,有時還可以利用輔助變數對抽樣調查中的缺失數據進行處理。
利用輔助變數進行抽樣設計可以大大提高估計的精度,所以在抽樣設計之初,應著重考察有沒有輔助變數的資料可供選擇利用,並進一步考慮怎樣利用效果更好。

輔助變數的使用


利用輔助變數進行抽樣設計有兩種目的:一是用於改進抽樣方法,二是用於改進估計量。那麼在抽樣調查中,由於估計量和抽樣方法的不同,對輔助變數就要分情況進行使用。
1、利用輔助變數對總體進行分層
分層抽樣是實際工作中使用頻率較高的一種抽樣方法,適用於輔助變數有兩個或兩個以上的情形。分層抽樣的效率主要取決於總體層內方差與層間方差的比值。利用輔助變數對總體進行分層,可以有效的縮小層內方差,擴大層間方差,降低總體層內方差與層間方差的比值,從而大大提高抽樣估計的效率。利用這種方法可以確定最優分層的分點,使得在同樣情況下目標量估計的方差最小。
2、利用輔助變數對總體單元排隊,然後進行系統抽樣
這是按有關標識排隊的系統抽樣。由於系統抽樣的精度取決於樣本內方差,系統樣本內方差愈大,則目標量估計的方差愈小。而按輔助變數排隊可把非線性總體線性趨勢化,在此基礎上實施系統抽樣可以提高所獲得系統樣本內方差,從而提高精度。這種方法的操作簡單、方便,效果一般比較理想,缺點是估計量的方差估計比較困難,而且由於排隊只是利用了輔助變數大小順序的信息,因此信息利用並不很充分。
3、利用輔助變數進行不等概率抽樣
不等概率抽樣,特別是以群單位作為抽樣單位的不等概率抽樣,可以有效地提高整群抽樣的效率。在利用輔助變數進行不等概率抽樣時,實際工作者常採用以下兩種方法:放回PPS抽樣與PPS系統抽樣。前者抽樣、估計量及其方差估計都極其簡單,但精度稍差;而後者作為一種系統抽樣,方差估計較為困難。
4、利用輔助變數建立比率估計量、回歸估計量對總體均值或總值構造比率或回歸估計量,是從估計環節改善抽樣設計的重要手段。
但這兩種估計方法都需要有相應的輔助變數,並獲得輔助變數的總體均值或總值。比估計與回歸估計通常都是極為有效的,當輔助變數與調查指標高度相關時.尤其如此。它的一個很大優點是可用於多指標情形,在此情況下不同指標值常採用不同的輔助變數。比估計或回歸估計的缺點主要是計算較為複雜,而且估計量是有偏的。不過當樣本量比較大時,估計量的偏倚並不大。在大樣本情形下,偏倚在總的機樣誤差中相對於方差只佔其中很小一部分。
5、利用輔助變數進行事後分層。
有時侯事先分層有困難,缺乏層的抽樣框,就不能進行分層抽樣,得不到分層樣本。如果此時又想利用分層抽樣在提高精度上的好處以及可以得到每個子總體的估計,就必須採用事後分層技術。採用事後分層的前提之一是層權可以通過某種途徑獲得,從而是已知的。事後分層對輔助信息的需求較小,它不需掌握總體每一單位的信息,只需了解某種匯總信息;因此費用較低而效果較差,並且如果事後分層分得過多,就不再有效了。

輔助變數的選擇


在抽樣設計之初,應著重考察有沒有輔助變數的資料可以利用,並進一步考慮什麼變數可以作為輔助變數,哪些輔助變數較好,如何從眾多的變數中選擇合適的輔助變數。
1、獲取輔助變數的途徑
1)歷史資料
統計調查一般都採用周期性的普查與經常性的抽樣調查相結合的方法。周期性的普查為兩次普查期間的抽樣調查提供了大量的歷史資料,它包括調查變數本身的歷史資料和與調查變數相關的其他變數的歷史資料,這些資料一般具有獲取成本低、數據準確度高,與研究變數具有較高的相關關係等優點。
2)現期相關資料
有的研究變數具有同一時期的相關資料。比如,派出所一般有管轄區域內比較齊全的人口統計資料;工商行政管理部門有管轄區域內比較齊全的企業註冊登記資料等。這些資料與許多變數之間有相關關係,可以作為抽樣設計中研究變數的輔助變數。
3)試驗性調查
如果沒有總體資料可供利用,可以考慮採用試驗性調查,以取得抽樣設計所需要的輔助變數數據。試驗性調查的樣本既可以用概率抽樣方法抽取,也可以用非概率抽樣方法抽取。
如果沒有方便的輔助變數,也可考慮利用二重抽樣技術。先從總體中抽取一個相對比較大的簡單隨機樣本,用以估計輔助變數。然後,把這個樣本作為一個小總體,在進行需要的輔助變數的抽樣設計。在總的調查費用一定的情況下,抽取並調查第一重樣本當然要耗費一部分費用,於是便不得不減少第二重樣本的樣本量。第一重樣本耗費費用的目的在於獲取輔助變數的信息以便提高第二重樣本的估計精度;第二重樣本由於不得不減少樣本量也會造成估計精度的損失。二者相比較,只有前者在提高精度上的得益超過了後者在降低精度上的損失,採用二重抽樣技術才是有意義的。
2、選擇輔助變數的原則:最佳效果原則
抽樣調查有一個投入產出問題,投入的是調查經費,產出的是總體指標的估計值,並用抽樣精度來衡量。這樣,最佳效果原則就可分解為最高抽樣精度原則和最低調查經費原則兩個方面。
前者要求在選擇輔助變數時,要考慮使選擇的輔助變數與抽樣和估計方法的要求相適應,以便能達到最高抽樣精度。這是因為不同的抽樣和估計方法對輔助變數與研究變數之間的關係有不同的要求,比如,用於分層、回歸估計的輔助變數要與研究的變數之間具有較高的線性相關關係;用於PPS抽樣、比率估計的輔助變數要與研究變數之間具有比例關係。後者要求在選擇輔助變數時,要考慮在給定的抽樣精度條件下使所需的經費最低。這是因為不同的輔助變數,其數值的獲取成本存在很大差異,有的輔助變數可能只要較少的費用就可以得到,有的輔助變數值卻可能需要花費相當大的費用才能取得。而輔助變數是為提高估計精度而引入的變數,在調查經費一定的情況下,在輔助變數的調查上佔用的費用越多,留給樣本的調查費用就必然越少,這將會影響到樣本容量