共找到3條詞條名為數據科學的結果展開

數據科學

方匡南主編書籍

《數據科學》是方匡南所著的一本數據科學的入門書籍。書中從實際的應用案例出發，從數據出發講解知識，以問題為導向，在解決問題中學習數據挖掘、機器學習等數據科學相關方法。

目錄

1內容簡介 2圖書目錄

內容簡介

本書是一本數據科學的入門書籍。每個知識點盡量從實際的應用案例出發，從數據出發，以問題為導向，在解決問題中學習數據挖掘、機器學習等數據科學相關方法。本書將數據讀寫、數據清洗和預處理作為開端，逐漸深入到和數據科學相關的決策樹、支持向量機、神經網路、無監督學習等知識。此外，結合數據科學的實際應用，書中還講解了推薦演演算法、文本挖掘和社交網路分析等熱門實用技術。本書在寫作過程中盡量刪去太過抽樣的理論，讓具有一定高等數學和概率論基礎的讀者就能看得懂。當然，如果讀者對方法原理確實不感興趣，只是為了用R程序實現某種方法，可以跳過方法只看案例和程序。本書適合作為高校數據科學、機器學習、數據挖掘、大數據分析等相關專業的研究生和高年級本科的教科書，也適合作為相關企業的數據科學家、數據挖掘工程師、數據分析師及數據科學的愛好者等的工具書。

圖書目錄

第1章導論1

1.1數據科學的發展歷史1

1.2數據科學研究的主要問題3

1.3數據科學的主要方法5

1.4R語言的優勢7

第2章數據讀/寫9

2.1數據的讀入9

2.1.1直接輸入數據9

2.1.2讀入R包中的數據10

2.1.3從外部文件讀入數據10

2.1.4批量讀入數據15

2.1.5R語言讀取文件的幾個常錯的問題15

2.2寫出數據17

2.3習題18

第3章數據清洗與預處理19

3.1數據分類19

3.2數據清洗20

3.2.1處理缺失數據20

3.2.2處理雜訊數據23

3.3數據變換23

3.4R語言實現25

3.4.1數據集的基本操作25

3.4.2數據集間的操作28

3.4.3連接資料庫數據29

3.5習題30

第4章數據可視化31

4.1高階繪圖工具——ggplot231

4.1.1快速繪圖32

4.1.2使用圖層構建圖像34

4.1.3分面37

4.2ECharts239

4.2.1安裝39

4.2.2使用40

4.3習題48

第5章線性回歸49

5.1問題的提出49

5.2一元線性回歸50

5.2.1一元線性回歸概述50

5.2.2一元線性回歸的參數估計52

5.2.3一元線性回歸模型的檢驗55

5.2.4一元線性回歸的預測56

5.3多元線性回歸分析57

5.3.1多元線性回歸模型及假定58

5.3.2參數估計59

5.3.3模型檢驗60

5.3.4預測61

5.4R語言實現63

5.4.1一元線性回歸63

5.4.2多元線性回歸66

5.5習題67

第6章線性分類69

6.1問題的提出69

6.2Logistic模型70

6.2.1線性概率模型70

6.2.2Probit模型71

6.2.3Logit模型原理72

6.2.4邊際效應分析73

6.2.5最大似然估計（MLE）73

6.2.6似然比檢驗74

6.3判別分析74

6.3.1Na?veBayes判別分析75

6.3.2線性判別分析76

6.3.3二次判別分析78

6.4分類問題評價準則78

6.5R語言實現80

6.5.1描述統計80

6.5.2Logistic模型81

6.5.3判別分析87

6.5.4模型比較90

6.6習題92

第7章重抽樣94

7.1問題的提出94

7.2基本概念94

7.2.1訓練誤差和測試誤差95

7.2.2偏差和方差95

7.3交叉驗證法96

7.3.1驗證集方法97

7.3.2留一交叉驗證法97

7.3.3K折交叉驗證法98

7.4自助法99

7.5R語言實現100

7.5.1驗證集方法100

7.5.2留一交叉驗證法102

7.5.3K折交叉驗證法102

7.5.4自助法103

7.6習題104

第8章模型選擇與正則化105

8.1問題的提出105

8.2子集選擇法106

8.2.1最優子集法106

8.2.2逐步選擇法106

8.2.3模型選擇108

8.3基於壓縮估計的逐個變數選擇109

8.3.1LASSO懲罰110

8.3.2SCAD懲罰111

8.3.3MCP懲罰112

8.3.4調整參數選擇113

8.4基於壓縮估計的組變數選擇113

8.4.1自然分組結構113

8.4.2人為分組結構114

8.5基於壓縮估計的雙層變數選擇115

8.5.1複合函數型雙層選擇115

8.5.2稀疏組懲罰型雙層選擇116

8.6R語言實現117

8.6.1子集選擇法117

8.6.2模型選擇120

8.6.3組模型選擇122

8.6.4雙層模型選擇126

8.7習題128

第9章決策樹與組合學習129

9.1問題的提出129

9.2決策樹130

9.2.1基本概念130

9.2.2分類樹133

9.2.3回歸樹135

9.2.4樹的優缺點137

9.3Bagging137

9.3.1基本演演算法137

9.3.2袋外誤差估計138

9.3.3變數重要性的度量139

9.4隨機森林140

9.5提升法142

9.5.1Adaboost演演算法142

9.5.2GBDT演演算法143

9.5.3XGBoost演演算法143

9.6R語言實現144

9.6.1數據介紹144

9.6.2描述性統計145

9.6.3分類樹145

9.6.4Bagging148

9.6.5隨機森林149

9.6.6Boosting150

9.7習題155

第10章支持向量機156

10.1問題的提出156

10.2最大間隔分類器157

10.2.1使用分割超平面分類157

10.2.2構建最大間隔分類器159

10.2.3線性不可分的情況160

10.3支持向量分類器161

10.3.1使用軟間隔分類161

10.3.2構建支持向量分類器161

10.4支持向量機163

10.4.1使用非線性決策邊界分類163

10.4.2構建支持向量機165

10.5與Logistic回歸的關係166

10.6支持向量回歸167

10.7R語言實現168

10.7.1支持向量分類器168

10.7.2支持向量機173

10.7.3Auto數據集175

10.8習題178

第11章神經網路180

11.1問題的提出181

11.2神經網路的基本概念181

11.2.1神經網路的基本單元——神經元181

11.2.2神經網路的結構185

11.2.3神經網路的學習186

11.3神經網路模型188

11.3.1單神經元感知器188

11.3.2單層感知器189

11.3.3BP神經網路190

11.3.4Rprop神經網路193

11.4R語言實現195

11.4.1nnet程序包195

11.4.2neuralnet程序包197

11.4.3應用案例1：利用nnet程序包分析紙幣鑒別數據198

11.4.4應用案例2：利用neuralnet程序包分析白葡萄酒的品質200

11.5習題203

第12章無監督學習205

12.1問題的提出205

12.2聚類分析207

12.2.1相異度207

12.2.2K-means聚類209

12.2.3系統聚類法211

12.3主成分分析214

12.3.1主成分分析的幾何意義214

12.3.2主成分的數學推導215

12.3.3主成分回歸217

12.3.4主成分分析的其他方面217

12.4因子分析219

12.4.1因子分析的數學模型219

12.4.2因子載荷陣的統計意義220

12.4.3因子分析的其他方面221

12.5典型相關分析223

12.5.1典型相關分析原理223

12.5.2典型相關係數的顯著性檢驗226

12.5.3典型相關分析的步驟227

12.6R語言實現228

12.6.1聚類分析：移動通信用戶細分228

12.6.2主成分分析：農村居民消費水平評價233

12.6.3因子分析：市場調查236

12.6.4典型相關分析：職業滿意度與職業特性的關係239

12.7習題242

第13章推薦演演算法243

13.1關聯規則243

13.1.1基本概念244

13.1.2基本分類246

13.1.3基本方法247

13.2協同過濾演演算法249

13.2.1基於鄰居的協同過濾演演算法249

13.2.2基於模型的協同過濾演演算法253

13.3R語言實現254

13.3.1關聯規則254

13.3.2協同過濾演演算法259

13.4習題262

第14章文本挖掘264

14.1問題的提出264

14.2文本挖掘基本流程265

14.2.1文本數據獲取265

14.2.2文本特徵表示265

14.2.3文本的特徵選擇268

14.2.4信息挖掘與主題模型269

14.3R語言實現270

14.3.1JSS_papers數據集270

14.3.2拓展案例：房地產網路輿情分析275

14.4習題278

第15章社交網路分析279

15.1問題的提出279

15.2網路的基本概念280

15.3網路特徵的描述性分析281

15.3.1節點度281

15.3.2節點中心性282

15.3.3網路的凝聚性特徵283

15.3.4分割284

15.4網路圖的統計模型285

15.4.1經典隨機圖模型285

15.4.2廣義隨機圖模型286

15.4.3指數隨機圖模型287

15.4.4網路塊模型287

15.5關聯網路推斷288

15.5.1相關網路288

15.5.2偏相關網路289

15.5.3高斯圖模型網路290

15.5.4GraphicLasso模型291

15.6二值型網路模型294

15.7R語言實現295

15.7.1網路的基本操作295

15.7.2“豆瓣關注網路”和“豆瓣朋友網路”特徵分析298

15.7.3關聯網路推斷303

15.8習題308

第16章并行計算309

16.1提高R語言的計算速度309

16.2R語言的并行計算310

16.3HPC多線程并行計算316

參考文獻321

目錄