共找到3條詞條名為數據科學的結果 展開

數據科學

方匡南主編書籍

《數據科學》是方匡南所著的一本數據科學的入門書籍。書中從實際的應用案例出發,從數據出發講解知識,以問題為導向,在解決問題中學習數據挖掘、機器學習等數據科學相關方法。

內容簡介


本書是一本數據科學的入門書籍。每個知識點盡量從實際的應用案例出發,從數據出發,以問題為導向,在解決問題中學習數據挖掘、機器學習等數據科學相關方法。本書將數據讀寫、數據清洗和預處理作為開端,逐漸深入到和數據科學相關的決策樹支持向量機神經網路、無監督學習等知識。此外,結合數據科學的實際應用,書中還講解了推薦演演算法、文本挖掘和社交網路分析等熱門實用技術。本書在寫作過程中盡量刪去太過抽樣的理論,讓具有一定高等數學概率論基礎的讀者就能看得懂。當然,如果讀者對方法原理確實不感興趣,只是為了用R程序實現某種方法,可以跳過方法只看案例和程序。本書適合作為高校數據科學、機器學習、數據挖掘、大數據分析等相關專業的研究生和高年級本科的教科書,也適合作為相關企業的數據科學家數據挖掘工程師、數據分析師及數據科學的愛好者等的工具書。

圖書目錄


第1章導論1
1.1數據科學的發展歷史1
1.2數據科學研究的主要問題3
1.3數據科學的主要方法5
1.4R語言的優勢7
第2章數據讀/寫9
2.1數據的讀入9
2.1.1直接輸入數據9
2.1.2讀入R包中的數據10
2.1.3從外部文件讀入數據10
2.1.4批量讀入數據15
2.1.5R語言讀取文件的幾個常錯的問題15
2.2寫出數據17
2.3習題18
第3章數據清洗與預處理19
3.1數據分類19
3.2數據清洗20
3.2.1處理缺失數據20
3.2.2處理雜訊數據23
3.3數據變換23
3.4R語言實現25
3.4.1數據集的基本操作25
3.4.2數據集間的操作28
3.4.3連接資料庫數據29
3.5習題30
第4章數據可視化31
4.1高階繪圖工具——ggplot231
4.1.1快速繪圖32
4.1.2使用圖層構建圖像34
4.1.3分面37
4.2ECharts239
4.2.1安裝39
4.2.2使用40
4.3習題48
第5章線性回歸49
5.1問題的提出49
5.2一元線性回歸50
5.2.1一元線性回歸概述50
5.2.2一元線性回歸的參數估計52
5.2.3一元線性回歸模型的檢驗55
5.2.4一元線性回歸的預測56
5.3多元線性回歸分析57
5.3.1多元線性回歸模型及假定58
5.3.2參數估計59
5.3.3模型檢驗60
5.3.4預測61
5.4R語言實現63
5.4.1一元線性回歸63
5.4.2多元線性回歸66
5.5習題67
第6章線性分類69
6.1問題的提出69
6.2Logistic模型70
6.2.1線性概率模型70
6.2.2Probit模型71
6.2.3Logit模型原理72
6.2.4邊際效應分析73
6.2.5最大似然估計(MLE)73
6.2.6似然比檢驗74
6.3判別分析74
6.3.1Na?veBayes判別分析75
6.3.2線性判別分析76
6.3.3二次判別分析78
6.4分類問題評價準則78
6.5R語言實現80
6.5.1描述統計80
6.5.2Logistic模型81
6.5.3判別分析87
6.5.4模型比較90
6.6習題92
第7章重抽樣94
7.1問題的提出94
7.2基本概念94
7.2.1訓練誤差和測試誤差95
7.2.2偏差和方差95
7.3交叉驗證法96
7.3.1驗證集方法97
7.3.2留一交叉驗證法97
7.3.3K折交叉驗證法98
7.4自助法99
7.5R語言實現100
7.5.1驗證集方法100
7.5.2留一交叉驗證法102
7.5.3K折交叉驗證法102
7.5.4自助法103
7.6習題104
第8章模型選擇與正則化105
8.1問題的提出105
8.2子集選擇法106
8.2.1最優子集法106
8.2.2逐步選擇法106
8.2.3模型選擇108
8.3基於壓縮估計的逐個變數選擇109
8.3.1LASSO懲罰110
8.3.2SCAD懲罰111
8.3.3MCP懲罰112
8.3.4調整參數選擇113
8.4基於壓縮估計的組變數選擇113
8.4.1自然分組結構113
8.4.2人為分組結構114
8.5基於壓縮估計的雙層變數選擇115
8.5.1複合函數型雙層選擇115
8.5.2稀疏組懲罰型雙層選擇116
8.6R語言實現117
8.6.1子集選擇法117
8.6.2模型選擇120
8.6.3組模型選擇122
8.6.4雙層模型選擇126
8.7習題128
第9章決策樹與組合學習129
9.1問題的提出129
9.2決策樹130
9.2.1基本概念130
9.2.2分類樹133
9.2.3回歸樹135
9.2.4樹的優缺點137
9.3Bagging137
9.3.1基本演演算法137
9.3.2袋外誤差估計138
9.3.3變數重要性的度量139
9.4隨機森林140
9.5提升法142
9.5.1Adaboost演演算法142
9.5.2GBDT演演算法143
9.5.3XGBoost演演算法143
9.6R語言實現144
9.6.1數據介紹144
9.6.2描述性統計145
9.6.3分類樹145
9.6.4Bagging148
9.6.5隨機森林149
9.6.6Boosting150
9.7習題155
第10章支持向量機156
10.1問題的提出156
10.2最大間隔分類器157
10.2.1使用分割超平面分類157
10.2.2構建最大間隔分類器159
10.2.3線性不可分的情況160
10.3支持向量分類器161
10.3.1使用軟間隔分類161
10.3.2構建支持向量分類器161
10.4支持向量機163
10.4.1使用非線性決策邊界分類163
10.4.2構建支持向量機165
10.5與Logistic回歸的關係166
10.6支持向量回歸167
10.7R語言實現168
10.7.1支持向量分類器168
10.7.2支持向量機173
10.7.3Auto數據集175
10.8習題178
第11章神經網路180
11.1問題的提出181
11.2神經網路的基本概念181
11.2.1神經網路的基本單元——神經元181
11.2.2神經網路的結構185
11.2.3神經網路的學習186
11.3神經網路模型188
11.3.1單神經元感知器188
11.3.2單層感知器189
11.3.3BP神經網路190
11.3.4Rprop神經網路193
11.4R語言實現195
11.4.1nnet程序包195
11.4.2neuralnet程序包197
11.4.3應用案例1:利用nnet程序包分析紙幣鑒別數據198
11.4.4應用案例2:利用neuralnet程序包分析白葡萄酒的品質200
11.5習題203
第12章無監督學習205
12.1問題的提出205
12.2聚類分析207
12.2.1相異度207
12.2.2K-means聚類209
12.2.3系統聚類法211
12.3主成分分析214
12.3.1主成分分析的幾何意義214
12.3.2主成分的數學推導215
12.3.3主成分回歸217
12.3.4主成分分析的其他方面217
12.4因子分析219
12.4.1因子分析的數學模型219
12.4.2因子載荷陣的統計意義220
12.4.3因子分析的其他方面221
12.5典型相關分析223
12.5.1典型相關分析原理223
12.5.2典型相關係數的顯著性檢驗226
12.5.3典型相關分析的步驟227
12.6R語言實現228
12.6.1聚類分析:移動通信用戶細分228
12.6.2主成分分析:農村居民消費水平評價233
12.6.3因子分析:市場調查236
12.6.4典型相關分析:職業滿意度與職業特性的關係239
12.7習題242
第13章推薦演演算法243
13.1關聯規則243
13.1.1基本概念244
13.1.2基本分類246
13.1.3基本方法247
13.2協同過濾演演算法249
13.2.1基於鄰居的協同過濾演演算法249
13.2.2基於模型的協同過濾演演算法253
13.3R語言實現254
13.3.1關聯規則254
13.3.2協同過濾演演算法259
13.4習題262
第14章文本挖掘264
14.1問題的提出264
14.2文本挖掘基本流程265
14.2.1文本數據獲取265
14.2.2文本特徵表示265
14.2.3文本的特徵選擇268
14.2.4信息挖掘與主題模型269
14.3R語言實現270
14.3.1JSS_papers數據集270
14.3.2拓展案例:房地產網路輿情分析275
14.4習題278
第15章社交網路分析279
15.1問題的提出279
15.2網路的基本概念280
15.3網路特徵的描述性分析281
15.3.1節點度281
15.3.2節點中心性282
15.3.3網路的凝聚性特徵283
15.3.4分割284
15.4網路圖的統計模型285
15.4.1經典隨機圖模型285
15.4.2廣義隨機圖模型286
15.4.3指數隨機圖模型287
15.4.4網路塊模型287
15.5關聯網路推斷288
15.5.1相關網路288
15.5.2偏相關網路289
15.5.3高斯圖模型網路290
15.5.4GraphicLasso模型291
15.6二值型網路模型294
15.7R語言實現295
15.7.1網路的基本操作295
15.7.2“豆瓣關注網路”和“豆瓣朋友網路”特徵分析298
15.7.3關聯網路推斷303
15.8習題308
第16章并行計算309
16.1提高R語言的計算速度309
16.2R語言的并行計算310
16.3HPC多線程并行計算316
參考文獻321