stata
統計分析軟體
Stata是一套提供其使用者數據分析、數據管理以及繪製專業圖表的完整及整合性統計軟體。它提供許許多多功能,包含線性混合模型、均衡重複反覆及多項式普羅比模式。用Stata繪製的統計圖形相當精美。
新版本的STATA採用最具親和力的窗口介面,使用者自行建立程序時,軟體能提供具有直接命令式的語法。Stata提供完整的使用手冊,包含統計樣本建立、解釋、模型與語法、文獻等超過一萬餘頁的出版品。
軟體logo
Stata的統計功能很強,除了傳統的統計分析方法外,還收集了近20年發展起來的新方法,如Cox比例風險回歸,指數與Weibull回歸,多類結果與有序結果的logistic回歸,Poisson回歸,負二項回歸及廣義負二項回歸,隨機效應模型等。具體說,Stata具有如下統計分析能力:
數值變數資料的一般分析:參數估計,t檢驗,單因素和多因素的方差分析,協方差分析,交互效應模型,平衡和非平衡設計,嵌套設計,隨機效應,多個均數的兩兩比較,缺項數據的處理,方差齊性檢驗,正態性檢驗,變數變換等。
分類資料的一般分析:參數估計,列聯表分析(列聯繫數,確切概率),流行病學表格分析等。
等級資料的一般分析:秩變換,秩和檢驗,秩相關等
相關與回歸分析:簡單相關,偏相關,典型相關,以及多達數十種的回歸分析方法,如多元線性回歸,逐步回歸,加權回歸,穩鍵回歸,二階段回歸,百分位數(中位數)回歸,殘差分析、強影響點分析,曲線擬合,隨機效應的線性回歸模型等。
其他方法:質量控制,整群抽樣的設計效率,診斷試驗評價,kappa等。
Stata的作圖模塊,主要提供如下八種基本圖形的製作:直方圖(histogram),條形圖(bar),百分條圖(oneway),百分圓圖(pie),散點圖(twoway),散點圖矩陣(matrix),星形圖(star),分位數圖。這些圖形的巧妙應用,可以滿足絕大多數用戶的統計作圖要求。在有些非繪圖命令中,也提供了專門繪製某種圖形的功能,如在生存分析中,提供了繪製生存曲線圖,回歸分析中提供了殘差圖等。
Stata的矩陣運算功能
矩陣代數是多元統計分析的重要工具,Stata提供了多元統計分析中所需的矩陣基本運算,如矩陣的加、積、逆、Cholesky分解、Kronecker內積等;還提供了一些高級運算,如特徵根、特徵向量、奇異值分解等;在執行完某些統計分析命令后,還提供了一些系統矩陣,如估計係數向量、估計係數的協方差矩陣等。
Stata是一個統計分析軟體,但它也具有很強的程序語言功能,這給用戶提供了一個廣闊的開發應用的天地,用戶可以充分發揮自己的聰明才智,熟練應用各種技巧,真正做到隨心所欲。事實上,Stata的ado文件(高級統計部分)都是用Stata自己的語言編寫的。
Stata其統計分析能力遠遠超過了SPSS,在許多方面也超過了SAS!由於Stata在分析時是將數據全部讀入內存,在計算全部完成後才和磁碟交換數據,因此計算速度極快(一般來說,SAS的運算速度要比SPSS至少快一個數量級,而Stata的某些模塊和執行同樣功能的SAS模塊比,其速度又比SAS快將近一個數量級!)Stata也是採用命令行方式來操作,但使用上遠比SAS簡單。其生存數據分析、縱向數據(重複測量數據)分析等模塊的功能甚至超過了SAS。用Stata繪製的統計圖形相當精美,很有特色。
數據管理(Datamanagement)
資料轉換、分組處理、附加檔案、ODBC、行-列轉換、數據標記、字元串函數…等
基本統計(Basicstatistics)
直交表、相關性、t-檢定、變異數相等性檢定、比例檢定、信賴區間…等
線性模式(Linearmodels)
穩健Huber/White/sandwich變異估計,三階最小平方法、類非相關回歸、齊次多項式回歸、GLS
廣義型線性模式(Generalizedlinearmodels)
十連結函數、使用者-定義連結、ML及IRLS估計、九變異數估計、七殘差…等
二元、計數及有限應變數(Binary,countandlimiteddependentvariables)
羅吉斯特、probit、卜松回歸、tobit、truncated回歸、條件羅吉斯特、多項式邏輯、巢狀邏輯、負二項、zero-inflated模型、Heckman選擇模式、邊際影響
Panel數據/交叉-組合時間序列(Paneldata/cross-sectionaltime-series)
隨機及固定影響之回歸、GEE、隨機及固定-影響之卜松及負二項分配、隨機-影響、工具變數回歸、AR(1)干擾回歸
無母數方法(Nonparametricmethods)
多變數方法(Multivariatemethods)
因素分析、多變數回歸、anonical相關係數
模型檢定及事後估計量支持分析(Modeltestingandpost-estimationsupport)
Wald檢定、LR檢定、線性及非線性組合、非線性限制檢定、邊際影響、修正平均數Hausman檢定
群集分析(Clusteranalysis)
加權平均、質量中心及中位數聯結、kmeans、kmedians、dendrograms、停止規則、使用者擴充
圖形(Graphics)
直線圖、散布圖、條狀圖、圓餅圖、hi-lo圖、回歸診斷圖…
調查方法(Surveymethods)
抽樣權重、叢集抽樣、分層、線性變異數估計量、擬-概似最大估計量、回歸、工具變數…
生存分析(Survivalanalysis)
Kaplan–Meier、Nelson–Aalen、Cox回歸(弱性)、參數模式(弱性)、危險比例測試、時間共變項、左-右檢查、韋柏分配、指數分配…
流行病學工具(Toolsforepidemiologists)
比例標準化、病例控制、已配適病例控制、Mantel–Haenszel,藥理學、ROC分析、ICD-9-CM
時間序列(Timeseries)
最大概似法(Maximumlikelihood)
轉換及常態檢定(Transformsandnormalitytests)
Box–Cox、次方轉換Shapiro–Wilk、Shapiro–Francia檢定
其它統計方法(Otherstatisticalmethods)
樣本數量及次方、非線性回歸、逐步式回歸、統計及數學函數
包含樣本範例(Samplesession)
再抽樣及模擬方法(Resamplingandsimulationmethods)
bootstrapping、jackknife、蒙地卡羅模擬、排列檢定
網路功能
安裝新指令、網路升級、網站檔案分享、Stata最新消息
epiman論壇學習資源豐富,學術氛圍良好,在國內新生代公共衛生學術界有一定影響力。是探討Stata、spss、sas、epidata等統計軟體的主流論壇之一。
網路資源
Stata官方網站。Stata公司提供的Webresources,涵蓋了大量相關網路資源;其FAQ則提供了各種常見問題的解答;Statalist則是一個類似於人大經濟論壇的免費的討論區。加入Statalist的方法很簡單,你只需要發送郵件至Stata-maillist,郵件內容無需任何稱謂,只需寫上“subscribeStatalist”的字樣即可。接到確認信息后,你便成為一名Statalist的成員了。當然,即使不加入,你仍然可以瀏覽,但不能提問。
UCLA(加州大學洛杉磯分校提供的網路教程。該網站提供的DataManagement、Graphics、Regression、LogisticRegression、MultilevelModeling、SurveyDataAnalysis等模塊都非常出色;其WebBooks、TextbookExamples模塊則非常細緻地呈現了幾十本非常流行的統計和計量教材的Stata實例;對於LaTeX感興趣的朋友,則可以通過StataToolsforLaTeX模塊獲得諸多有用的信息;在Graphexamples模塊中,則列舉了四十餘種圖形的繪製方法;最後,在ClassesandSeminars模塊中,你可以在線觀看數十個Stata教學視頻。
Stata中文討論專區。目前,國內已有多個專門討論Stata應用的論壇,包括人大經濟論壇Stata專區,公衛人EpiMan等。這些論壇集中了國內外數十萬的Stata用戶,為交流和解決Stata應用過程中遇到的各種問題和經驗提供了很好的平台。
相關的書籍
自從Hamilton(1990)出版StatisticswithStata后,一系列將計量理論與軟體操作結合起來的書籍開始相繼面世,而在此之前,人們似乎都認為軟體操作是件非常簡單的事情。也正因為如此,很多學生在修改完了一個學年的計量經濟學課程后,仍然不知道該如何完成OLS估計。為此,我列舉的書籍多附有Stata實例(*表示我的推薦程度),多數書中的範例數據都可通過Stata官方網站下載。
一份詳細的書單:UCLA提供了的書單。
入門教材:Baum(2006)*、NewtonandCox(2009)、Chenetal.(2005)、AdkinsandHill(2008)*;Wooldridge(2009)*,波士頓大學的網站上提供了該書所有章節的Stata範例,是一套非常好的學習資料。
綜合性教材:CameronandTrivedi(2005)撰寫的Microeconometrics:Methodsandapplications一書全面介紹了微觀計量中的基本分析工具,其中不乏最近十年中得到廣泛應用的Bootstrap、MonteCarlo模擬,以及非參數估計法。二人於2009年出版的另一力作(CameronandTrivedi(2009)*)是這本書的姊妹篇,重點介紹了常用計量模型的Stata實現方法。
Stata手冊:我一直非常佩服撰寫Stata手冊的那些人,他們總能以最簡潔的語言說清楚糾結我很久的問題。Stata11附有16本電子手冊,僅需統一放置於D:\stata11\utilities目錄下,即可從Stata內部的幫助文件中的Alsosee部分直接鏈接到相應的PDF說明書中。作為初學者,我強烈建議你將[U]和[D]列印出來,反覆研讀。stata手冊內容齊全,但不便於閱讀,把命令與例題割裂開來,閱讀起來很不方便。
stata軟體在社會科學研究中的高級應用:周文光,李堯遠,梁煒著,西北工業大學出版社出版。該書詳細介紹了如何應用stata對連續變數與分類變數進行分析,包括回歸分析,時間序列分析,面板數據分析等,並介紹了如何使用stata進行生存分析與聚類分析、編程等內容。
Stata視頻。相比於網路教程和紙本教材,通過視頻學習Stata可能是最快捷的方式了。UCLA免費發布的視頻教程,內容涉及Stata入門、數據處理和繪圖等。採用英文講解,思路清晰。局限在於所涉及內容不夠系統,但對於想快速入門的學生則是一份不錯的參考資料。同時,藉由這份資料也可以練習一下英語聽力。對於中文用戶而言,人大論壇發布的Stata初級和高級視頻則提供了更為快捷的學習方式。其中,初級視頻主要介紹stata的操作方法,包括stata入門、stata數據處理、stata繪圖、stata矩陣以及stata編程初步五個部分。高級視頻主要介紹各種計量模型的基本原理,重點介紹其在stata中的實現方法,包括OLS、GLS、MLE、IV-GMM、時間序列分析、面板模型、stata高級編程、Bootstrap和MonteCarlo模擬等內容,比較全面的涵蓋了計量經濟學和核心內容。
統計方法:Rabe-HeskethandEveritt(2006)。
Stata繪圖:Mitchell(2008),非常細緻地介紹了各種圖形的繪製方法。
Stata數據處理:KohlerandKreuter(2005)*、Long(2009)*、楊菊華(2008)。
Stata編程:Baum(2009),當然,該書中有關數據處理的介紹也非常精彩。
Logit/Probit模型:HosmerandLemeshow(2000)*對相關的理論進行非常細緻的介紹,是我學習Logit模型的入門教材;LongandFreese(2001)*、LongandFreese(2006)、Hilbe(2009)則涉及了大量的Stata實例,對解讀Logit/Probit模型的結果很有幫助;Rabe-Heskethetal.(2004)提供了在GLLAMM架構下估計xtlogit,xtprobit,xtmelogit以及xtmepoisson模型的方法。
PanelData和多層次模型:Stata11手冊[XT]*,簡潔明了,附有大量實例;CameronandTrivedi(2009)*、王志剛(2008)、Rabe-HeskethandSkrondal(2008)。
Mata:Schmidheiny(2008)*,簡潔明了介紹了Mata的基本用法;詳情則可參與Stata11手冊[M]。
GLLAMM:Rabe-Heskethetal.(2004)。
Meta:Sterne(2009)。
GLM:Hardinetal.(2007)。
MLE:Harrison(2008)(Lectures)、Gouldetal.(2006)。
生存分析:Clevesetal.(2008)。