spss
統計產品與服務解決方案軟體
SPSS(Statistical Product and Service Solutions),“統計產品與服務解決方案”軟體。最初軟體全稱為“社會科學統計軟體包”(SolutionsStatistical Package for the Social Sciences),但是隨著SPSS產品服務領域的擴大和服務深度的增加,SPSS公司已於2000年正式將英文全稱更改為“統計產品與服務解決方案”,這標誌著SPSS的戰略方向正在做出重大調整。SPSS為IBM公司推出的一系列用於統計學分析運算、數據挖掘、預測分析和決策支持任務的軟體產品及相關服務的總稱,有Windows和Mac OS X等版本。
1984年SPSS總部首先推出了世界上第一個統計分析軟體微機版本SPSS/PC+,開創了SPSS微機系列產品的開發方向,極大地擴充了它的應用範圍,並使其能很快地應用於自然科學、技術科學、社會科學的各個領域。世界上許多有影響的報刊雜誌紛紛就SPSS的自動統計繪圖、數據的深入分析、使用方便、功能齊全等方面給予了高度的評價。
SPSS是世界上最早的統計分析軟體,由美國斯坦福大學的三位研究生Norman H.Nie、C.Hadlai(Tex) Hull 和 Dale H.Bent於1968年研究開發成功,同時成立了SPSS公司,並於1975年成立法人組織、在芝加哥組建了SPSS總部。
2009年7月28日,IBM公司宣布將用12億美元現金收購統計分析軟體提供商SPSS公司。如今SPSS的最新版本為25,而且更名為IBM SPSS Statistics。迄今,SPSS公司已有40餘年的成長歷史。
SPSS是世界上最早採用圖形菜單驅動界面的統計軟體,它最突出的特點就是操作界面極為友好,輸出結果美觀漂亮。它將幾乎所有的功能都以統一、規範的界面展現出來,使用Windows的窗口方式展示各種管理和分析數據方法的功能,對話框展示出各種功能選擇項。用戶只要掌握一定的Windows操作技能,精通統計分析原理,就可以使用該軟體為特定的科研工作服務。SPSS採用類似EXCEL表格的方式輸入與管理數據,數據介面較為通用,能方便的從其他資料庫中讀入數據。其統計過程包括了常用的、較為成熟的統計過程,完全可以滿足非統計專業人士的工作需要。輸出結果十分美觀,存儲時則是專用的SPO格式,可以轉存為HTML格式和文本格式。對於熟悉老版本編程運行方式的用戶,SPSS還特別設計了語法生成窗口,用戶只需在菜單中選好各個選項,然後按“粘貼”按鈕就可以自動生成標準的SPSS程序。極大的方便了中、高級用戶。
SPSS圖表製作
SPSS for Windows的分析結果清晰、直觀、易學易用,而且可以直接讀取EXCEL及DBF數據文件,現已推廣到多種各種操作系統的計算機上,它和SAS、BMDP並稱為國際上最有影響的三大統計軟體。在國際學術界有條不成文的規定,即在國際學術交流中,凡是用SPSS軟體完成的計算和統計分析,可以不必說明演演算法,由此可見其影響之大和信譽之高。
SPSS for Windows由於其操作簡單,已經在我國的社會科學、自然科學的各個領域發揮了巨大作用。該軟體還可以應用於經濟學、數學、統計學、物流管理、生物學、心理學、地理學、醫療衛生、體育、農業、林業、商業等各個領域。
發展歷史
1968年:斯坦福大學三位學生創建了SPSS
1968年:誕生第一個用於大型機的統計軟體
1975年:在芝加哥成立SPSS總部
1984年:推出用於個人電腦的SPSS/PC+
1992年:推出Windows版本,同時全球自SPSS 11.0起,SPSS全稱為“Statistical Product and Service Solutions”,即“統計產品和服務解決方案”
2009年:SPSS公司宣布重新包裝旗下的SPSS產品線,定位為預測統計分析軟體(Predictive Analytics Software)PASW,包括四部分:
PASW Statistics(formerly SPSS Statistics):統計分析
PASW Modeler(formerly Clementine) :數據挖掘
Data Collection family(formerly Dimensions):數據收集
PASW Collaboration and Deployment Services(formerly Predictive Enterprise Services):企業應用服務
2010年:隨著SPSS公司被IBM公司併購,各子產品家族名稱前面不再以PASW為名,修改為統一加上IBM SPSS字樣。
在10版以後,SPSS的每個新增版本都會對數據管理功能作一些改進,以使用戶的使用更為方便。13版中的改進可能主要有以下幾個方面:
1)超長變數名:在12版中,變數名已經最多可以為64個字元長度,13版中可能還要大大放寬這一限制,以達到對當今各種複雜數據倉庫更好的兼容性。
2)改進的Autorecode過程:該過程將可以使用自動編碼模版,從而用戶可以按自定義的順序,而不是默認的ASCII碼順序進行變數值的重編碼。另外,Autorecode過程將可以同時對多個變數進行重編碼,以提高分析效率。
3)改進的日期/時間函數:本次的改進將集中在使得兩個日期/時間差值的計算,以及對日期變數值的增減更為容易上。
從10版起,對數據和結果的圖表呈現功能一直是SPSS改進的重點。在16版中,SPSS推出了全新的常規圖功能,報表功能也達到了比較完善的地步。13版將針對使用中出現的一些問題,以及用戶的需求對圖表功能作進一步的改善。
1)統計圖:在經過一年的使用后,新的常規圖操作界面已基本完善,本次的改進除使得操作更為便捷外,還突出了兩個重點。首先在常規圖中引入更多的交互圖功能,如圖組(Paneled charts),帶誤差線的分類圖形如誤差線條圖和線圖,三維效果的簡單、堆積和分段餅圖等。其次是引入幾種新的圖形,已知的有人口金字塔和點密度圖兩種。
2)統計表:幾乎全部過程的輸出都將會棄用文本,改為更美觀的樞軸表。而且樞軸表的表現和易用性會得到進一步的提高,並加入了一些新的功能,如可以對統計量進行排序、在表格中合併/省略若干小類的輸出等。此外,樞軸表將可以被直接導出到PowerPoint中,這些無疑都方便了用戶的使用。
Complex Samples是12版中新增的模塊,用於實現複雜抽樣的設計方案,以及對相應的數據進行描述。但當時並未提供統計建模功能。在13版中,這將會有很大的改觀。一般線形模型將會被完整地引入複雜抽樣模塊中,以實現對複雜抽樣研究中各種連續性變數的建模預測功能,例如對市場調研中的客戶滿意度數據進行建模。對於分類數據,Logistic回歸則將會被系統的引入。這樣,對於一個任意複雜的抽樣研究,如多階段分層整群抽樣,或者更複雜的PPS抽樣,研究者都可以在該模塊中輕鬆的實現從抽樣設計、統計描述到複雜統計建模以發現影響因素的整個分析過程,方差分析模型、線形回歸模型、Logistic回歸模型等複雜的統計模型都可以加以使用,而操作方式將會和完全隨機抽樣數據的分析操作沒有什麼差別。可以預見,該模塊的推出將會大大促進國內對複雜抽樣時統計推斷模型的正確應用。
這個模塊實際上就是將以前單獨發行的SPSS AnswerTree軟體整合進了SPSS平台。筆者幾年前在自己的網站上介紹SPSS 11的新功能時,曾經很尖銳地指出SPSS的產品線過於分散,應當把各種功能較單一的小軟體,如AnswerTree、Sample Power等整合到SPSS等幾個平台上去。看來SPSS公司也意識到了這一點,而AnswerTree就是在此背景下第一個被徹底整合的產品。
Classification Tree模塊基於數據挖掘中發展起來的樹結構模型對分類變數或連續變數進行預測,可以方便、快速的對樣本進行細分,而不需要用戶有太多的統計專業知識。在市場細分和數據挖掘中有較廣泛的應用。已知該模塊提供了CHAID、Exhaustive CHAID和C&RT三種演演算法,在AnswerTree中提供的QUEST演演算法尚不能肯定是否會被納入。
為了方便新老用戶的使用,Tree模塊在操作方式上不再使用AnswerTree中的嚮導方式,而是SPSS近兩年開始採用的互動式選項卡對話框。但是,整個選項卡界面的內容實際上是和原先的嚮導基本一致的,另外,模型的結果輸出仍然是AnswerTree中標準的樹形圖,這使得AnswerTree的老用戶基本上不需要專門的學習就能夠懂得如何使用該模塊。
由於樹結構模型的方法體系和傳統的統計方法完全不同,貿然引入可能會引起讀者統計方法體系的混亂。為此,本次編寫的高級教程並未介紹該模塊,而將在高級教程的下一個版本,以及關於市場細分問題的教材中對其加以詳細介紹。
隨著自身產品線的不斷完善,SPSS公司的產品體系已經日益完整,而不同產品間的互補和兼容性也在不斷加以改進。在13版中,SPSS軟體已經可以和其他一些最新的產品很好地整合在一起,形成更為完整的解決方案。例如,SPSS、SPSS Data Entry和新發布的SPSS Text Analysis for Surveys一起就形成了對調查研究的完整解決方案。而新增的SPSS Classification Trees模塊將使得SPSS軟體本身就能夠針對市場細分工作提供更為完整的方法體系。
•SPSS 15.0.1-2006年11月
•SPSS 16.0.2-2008年4月
•SPSS Statistics 17.0.1-2008年12月
•PASW Statistics 17.0.2-2009年3月
•PASW Statistics 17.0.3-2009年11月
•PASW Statistics 18.0.0-2009年8月
•PASW Statistics 18.0.1-2009年12月
•PASW Statistics 18.0.2-2010年4月
•PASW Statistics 18.0.3-2010年9月
• IBM SPSS Statistics 19.0-2010年8月
• IBM SPSS Statistics 20.0-2011年8月
• IBM SPSS Statistics 21.0-2012年8月
• IBM SPSS Statistics 22.0-2013年8月
• IBM SPSS Statistics 23.0-2015年8月
• IBM SPSS Statistics 24.0-2016年8月
• IBM SPSS Statistics 25.0-2017年8月
• IBM SPSS Statistics 26.0-2019年5月
•從被IBM收購之後,SPSS的更新都是一年一個版本,每年的8月中旬,總能見到。
界面非常友好,除了數據錄入及部分命令程序等少數輸入工作需要鍵盤鍵入外,大多數操作可通過滑鼠拖曳、點擊“菜單”、“按鈕”和“對話框”來完成。
具有第四代語言的特點,告訴系統要做什麼,無需告訴怎樣做。只要了解統計分析的原理,無需通曉統計方法的各種演演算法,即可得到需要的統計分析結果。對於常見的統計方法,SPSS的命令語句、子命令及選擇項的選擇絕大部分由“對話框”的操作完成。因此,用戶無需花大量時間記憶大量的命令、過程、選擇項。
具有完整的數據輸入、編輯、統計分析、報表、圖形製作等功能。自帶11種類型136個函數。SPSS提供了從簡單的統計描述到複雜的多因素統計分析方法,比如數據的探索性分析、統計描述、列聯表分析、二維相關、秩相關、偏相關、方差分析、非參數檢驗、多元回歸、生存分析、協方差分析、判別分析、因子分析、聚類分析、非線性回歸、Logistic回歸等。
能夠讀取及輸出多種格式的文件。比如由dBASE、FoxBASE、FoxPRO產生的*.dbf文件,文本編輯器軟體生成的ASCⅡ數據文件,Excel的*.xls文件等均可轉換成可供分析的SPSS數據文件。能夠把SPSS的圖形轉換為7種圖形文件。結果可保存為*.txt及html格式的文件。
SPSS for Windows軟體分為若干功能模塊。用戶可以根據自己的分析需要和計算機的實際配置情況靈活選擇。
SPSS針對初學者、熟練者及精通者都比較適用。並且很多群體只需要掌握簡單的操作分析,大多青睞於SPSS,像薛薇的《基於SPSS的數據分析》一書也較適用於初學者。而那些熟練或精通者也較喜歡SPSS,因為他們可以通過編程來實現更強大的功能。
SPSS自SPSS16.0起推出Linux版本。SPSS最新版本為SPSS 24.0,已支持Windows 8/10、Mac OS X、Linux及UNIX。
Clementine
SPSS Clementine是ISL(Integral Solutions Limited)公司開發的數據挖掘工具平台。1999年SPSS公司收購了ISL公司,對Clementine產品進行重新整合和開發,Clementine已經成為SPSS公司的又一亮點。
作為一個數據挖掘平台,Clementine結合商業技術可以快速建立預測性模型,進而應用到商業活動中,幫助人們改進決策過程。強大的數據挖掘功能和顯著的投資回報率使得Clementine在業界久負盛譽。同那些僅僅著重於模型的外在表現而忽略了數據挖掘在整個業務流程中的應用價值的其它數據挖掘工具相比,Clementine其功能強大的數據挖掘演演算法,使數據挖掘貫穿業務流程的始終,在縮短投資回報周期的同時極大提高了投資回報率。
廣泛分析帶來最優結果
為了解決各種商務問題,企業需要以不同的方式來處理各種類型迥異的數據,相異的任務類型和數據類型就要求有不同的分析技術。Clementine為您提供最出色、最廣泛的數據挖掘技術,確保您可用最恰當的分析技術來處理相應的問題,從而得到最優的結果以應對隨時出現的商業問題。即便改進業務的機會被龐雜的數據表格所掩蓋, Clementine也能最大限度地執行標準的數據挖掘流程,為您找到解決商業問題的最佳答案。
CRISP-DM使數據挖掘成為標準的商業流程
為了推廣數據挖掘技術,以解決越來越多的商業問題,SPSS和一個從事數據挖掘研究的全球性企業聯盟制定了關於數據挖掘技術的行業標準--CRISP-DM(Cross-Industry Standard Process for Data Mining)。與以往僅僅局限在技術層面上的數據挖掘方法論不同,CRISP-DM把數據挖掘看作一個商業過程,並將其具體的商業目標映射為數據挖掘目標。一次調查顯示,50%以上的數據挖掘工具採用的都是CRISP-DM的數據挖掘流程,它已經成為事實上的行業標準。
Clementine完全支持CRISP-DM標準,這不但規避了許多常規錯誤,而且其顯著的智能預測模型有助於快速解決出現的問題。
應用模板的結果
在數據挖掘項目中使用Clementine應用模板(CATs)可以獲得更優化的結果。應用模板完全遵循CRISP-DM標準,借鑒了大量真實的數據挖掘實踐經驗,是經過理論和實踐證明的有效技術,為項目的正確實施提供了強有力的支撐。Clementine中的應用模板包括:
CRM CAT--針對客戶的獲取和增長,提高反饋率並減少客戶流失;
Web CAT--點擊順序分析和訪問行為分析;
Telco CAT--客戶保持和增加交叉銷售;
Crime CAT--犯罪分析及其特徵描述,確定事故高發區,聯合研究相關犯罪行為;
Fraud CAT--發現金融交易和索賠中的欺詐和異常行為;
Microarray CAT--研究和疾病相關的基因序列並找到治癒手段。
結構方程模型
確定複雜的關係
在社會科學以及經濟、市場、管理等研究領域,有時需要處理多個原因多個結果間的複雜關係,或者會碰到不可直接觀測的變數(即潛變數),這些都是傳統的統計方法不好解決的問題。二十世紀八十年代以來,結構方程分析迅速發展,彌補了傳統統計方法的不足,成為多元數據分析的重要工具。
簡單而言,與傳統的回歸分析不同,結構方程分析能同時處理多個因變數,並可以比較評價不同因果關係的理論模型。與傳統的探索性因子分析不同,在結構方程模型中,我們可以提出一個特定的因子結構,並檢驗它是否吻合數據。通過結構方程多組分析,我們可了解不同組別(如不同性別)內各變數的關係是否保持不變,各因子的均值是否有顯著差異。
國際上關於教育與心理統計的研究取得了快速的發展,結構方程模型可以說是其中發展較快,應用廣泛的多元統計分析技術;在商業領域的品牌研究、顧客滿意度研究等方向上也得到了廣泛的應用。在我國,SEM研究方法還在管理學、經濟學、醫學及社會學研究等領域的應用也得到了快速的發展。
結構方程模型(SEM)是國際管理研究和其他社會科學研究中日益廣泛採用的建模技術,每年的美國管理學會年會上都有專題教學和研討。SEM越來越成為各類高層次學術刊物、高層次管理研究以及社會學和經濟學等學科研究領域的必備方法。
AMOS軟體簡介
AMOS是SPSS Statistics軟體包中的獨立產品,是功能強大的結構方程(SEM)建模工具,通過對包括回歸、因子分析、相關性分析和方差分析等傳統多元分析方法的擴展,為您的理論研究提供更多的支持。
在AMOS環境下,您可以在直觀的路徑圖下指定、估計、評估以及設定模型,以展示假定的各變數之間的關係,來方便地地建立能真實反應複雜關係的行為態度模型。在AMOS中,任何數值變數,不管是可觀測的還是潛在的,都可以用來建模,預測其它數值變數。AMOS快速創建模型以檢驗變數之間的相互影響及其原因,由於結構方程模型是一次性地驗證複雜的因果關係,用標準方法以及在此基礎上擴展的方法進行多元分析,因此比普通最小二乘回歸和探索性因子分析更進一步,能獲得更精確、豐富的綜合分析結果。
AMOS界面
● Epi Info
● SAS
● RapidMiner-開源預測性軟體
● Minitab
● MathCAD
● Mathematica
● Maple
● R語言-開放源代碼統計學軟體
● PSPP-開放源代碼軟體
● PLUTO-基於雲計算技術架構
● JMP-SAS推出的統計分析軟體