數據科學理論與實踐

數據科學理論與實踐

圖書信息


數據科學理論與實踐
作者:朝樂門
定價:59元
印次:1-1
ISBN:9787302480549
出版日期:2017.11.01
印刷日期:2017.09.29

內容簡介


本書重點講解數據科學的核心理論與代表性實踐,在編寫過程中充分借鑒了國外著名大學設立的相關課程以及全球暢銷的外文專著,而且也考慮到了國內相關課程定位與專業人才的培養需求。

目錄


目錄
第1章基礎理論
如何開始學習
1.1術語定義
1.2研究目的
1.3發展簡史
1.4理論體系
1.5基本原則
如何繼續學習
習題
參考文獻
第2章理論基礎
如何開始學習
2.1數據科學的學科地位
2.2統計學
2.3機器學習
2.4數據可視化
如何繼續學習
習題
參考文獻
第3章流程與方法
如何開始學習
3.1基本流程
3.2數據加工
3.3數據審計
3.4數據分析
3.5數據可視化
3.6數據故事化
3.7項目管理
如何繼續學習
習題
參考文獻
第4章技術與工具
如何開始學習
4.1技術體系
4.2MapReduce
4.3Hadoop
4.4Spark
4.5NoSQL與NewSQL
4.6R與Python
4.7發展趨勢
如何繼續學習
習題
參考文獻
第5章數據產品及開發
如何開始學習
5.1定義
5.2主要特徵
5.3關鍵活動
5.4數據柔術
5.5數據能力
5.6數據戰略
5.7數據治理
如何繼續學習
習題
參考文獻
第6章典型案例及實踐
如何開始學習
6.12012年美國總統大選
6.2統計分析
6.3機器學習
6.4數據可視化
6.5SparkR編程
如何繼續學習
習題
參考文獻
附錄AR語言學習筆記與參考手冊
學習與參考指南
1.R變數定義方法
2.R語句的寫法
3.R中的賦值語句
4.R的文件讀寫路徑——當前工作目錄
5.R的變數查找機制——搜索路徑
6.R中查看幫助的方法
7.R區分大小寫字母
8.R的註釋
9.R的語句
10.R中的變數命名規範
11.R中的關鍵字/保留字
12.R中的默認數據類型
13.R中數據類型的判斷與強制類型轉換
14.R中的向量
15.R中的列表
16.R中的數據框
17.R中的因子類型
18.R中的循環語句
19.R中的選擇語句
20.R中的特殊運算符
21.R中的快速生成數列的方法
22.R中自定義函數
23.R中常用的數學函數
24.R中的字元串處理函數
25.R中的常用統計函數
26.R中的隨機數
27.R包的用法
28.R中的矩陣
29.R中的數組
30.R中的面向對象編程
31.R中的S4類
32.R中的數據可視化
33.R的輸入輸出
34.R中的正則表達式
35.R的數據集
36.R第三方包——R的靈魂
37.基於R的數據加工
附錄B數據科學的重要資源
1.學術期刊
2.國際會議
3.研究機構
4.課程資源
5.碩士學位項目
6.專家學者
7.相關工具
附錄C術語索引
後記
圖目錄
圖11DIKW金字塔2
圖12數據與數值的區別3
圖13大數據的本質4
圖14大數據的特徵5
圖15DIKUW模型及應用8
圖16數據洞見8
圖17業務數據化與數據業務化9
圖18常用驅動方式9
圖19數據的層次性9
圖110大數據生態系統10
圖111Gartner技術成熟度曲線11
圖112數據科學的萌芽期(1974—2009年)11
圖113數據科學的快速發展期(2010—2013年)12
圖114數據科學的逐漸成熟期(2014年至今)13
圖115數據科學的理論體系14
圖116數據科學的主要內容15
圖117數據科學的“三世界原則”16
圖118數據科學的“三個要素”及“3C精神”17
圖119數據範式與知識範式的區別18
圖120數據管理範式的變化18
圖121大數據的資產屬性19
圖122常用驅動方式20
圖123CAPTCHA項目21
圖124ReCAPTCHA項目21
圖125數據與演演算法之間的關係22
圖126BellKorsPragmaticChaos團隊獲得Netflix獎23
圖127Netflix獎公測結果23
圖128RStudio中編輯Markdown的窗口25
圖129數據科學家團隊28
圖130學習數據科學的四則原則29
圖21數據科學的理論基礎35
圖22統計方法的分類(目的與思路視角)37
圖23統計學中的數據推斷37
圖24數據統計方法的類型(方法論視角)38
圖25數據統計基本方法38
圖26元分析與基本分析39
圖27GFT預測與美國疾病控制中心數據的對比40
圖28GFT估計與實際數據的誤差(2013年2月)40
圖29大數據時代的思維模式的轉變41
圖210西洋雙陸棋42
圖211自動駕駛42
圖212機器學習的基本思路42
圖213機器學習的三要素44
圖214機器學習的類型45
圖215KNN演演算法的基本步驟46
圖216決策樹示例——識別鳥類48
圖217感知器示例50
圖218前向神經網路50
圖219歸納學習與分析學習52
圖220增強學習53
圖221IBMWatson54
圖222Pepper機器人54
圖223機器學習及其應用55
圖224Anscombe四組數據的可視化57
圖225JohnSnow的鬼地圖(GhostMap)58
圖31數據科學的基本流程62
圖32量化自我63
圖33整齊數據與乾淨數據的區別64
圖34整齊數據示意圖64
圖35殘差67
圖36數據分析的類型68
圖37Analytics1.0~3.069
圖38數據加工方法70
圖39數據審計與數據清洗71
圖310缺失數據的處理步驟72
圖311冗餘數據的處理方法72
圖312數據分箱處理的步驟與類型73
圖313均值平滑與邊界值平滑74
圖314內容集成76
圖315結構集成76
圖316數據脫敏處理77
圖317數據連續性的定義及重要性81
圖318可視化審計82
圖319Gartner分析學價值扶梯模型83
圖320冰激凌的銷量與謀殺案的發生數量84
圖321數據分析的類型86
圖322拿破崙進軍俄國慘敗而歸的歷史事件的可視化87
圖323可視化分析學的相關學科87
圖324可視化分析學模型88
圖325數據可視化的方法體系89
圖326視覺圖形元素與視覺通道89
圖327雷達圖示例89
圖328齊美爾連帶89
圖329視覺隱喻的示例——美國政府機構的設置90
圖330地鐵路線圖的創始人HenryBeck91
圖331HenryBeck的倫敦地鐵線路圖91
圖332視覺突出的示例92
圖333完圖法則的示例92
圖334視覺通道的選擇與展示94
圖335視覺通道的精確度對比94
圖336視覺通道的可辨認性——某公司產品銷售示意圖95
圖337視覺通道的可分離性差95
圖338上下文導致視覺假象196
圖339上下文導致視覺假象296
圖340對亮度和顏色的相對判斷容易造成視覺假象的示例96
圖341數據可視化與數據故事化描述97
圖342數據的故事化描述及故事的展現98
圖343項目管理的主要內容101
圖344數據科學項目的基本流程102
圖41大數據產業全景圖107
圖42基礎設施108
圖43分析工具109
圖44企業應用109
圖45行業應用110
圖46跨平台基礎設施和分析工具110
圖47開源系統111
圖48數據源與Apps111
圖49數據資源111
圖410MapReduce執行過程113
圖411MapReduce對中間數據的處理116
圖412以MapReduce為核心和以YARN為核心的軟體棧對比118
圖413下一代MapReduce框架118
圖413下一代MapReduce框架118
圖414ApacheHadoop官網119
圖415ApacheHadoop生態系統119
圖416HadoopMapReduce數據處理流程121
圖417ApacheHive官網122
圖418ApachePig官網123
圖419ApacheMahout官網124
圖420ApacheHBase官網125
圖421HBase與Hadoop項目125
圖422HBase邏輯模型126
圖423ApacheZookeeper官網127
圖424ApacheFlume官網127
圖425ApacheSqoop官網128
圖426Spark技術架構130
圖427Spark執行流程130
圖428SparkScheduler134
圖429傳統關係資料庫的優點與缺點136
圖430關係資料庫與NoSQL資料庫之間的關係138
圖431NoSQL數據分佈的兩個基本途徑139
圖432分片處理140
圖433主從複製141
圖434對等複製142
圖435數據不一致性142
圖436CAP理論143
圖437Memcached官網146
圖438一致性散列的分配方式147
圖439伺服器增加時的變化147
圖440計算模式的演變150
圖441數據管理的新變化152
圖51數據產品開發中的數據與數據柔術157
圖52數據產品開發與數據柔術160
圖53數據產品的多樣性160
圖54數據產品的層次性161
圖55Google全球商機洞察(Global Market Finder)162
圖56數據產品鏈162
圖57傳統產品開發與數據產品開發的區別163
圖58D J Patil164
圖59UI(User Interface)設計方案與設計思維165
圖510Goolge搜索的用戶體驗166
圖511人與計算機圖像內容識別能力的不同166
圖512Amazon MTurk平台168
圖513HIT生命周期168
圖514基於人與計算機的數據處理成本曲線169
圖515亞馬遜數據產品:其他商家(Other Sellers)170
圖516LinkedIn的數據產品——你可能認識的人們(People You May Know)170
圖517LinkedIn的數據產品——你的觀眾是誰171
圖518逆向交互定律172
圖519LinkedIn數據產品——職位推薦174
圖520LinkedIn的數據產品——幫助你的朋友找到工作174
圖521Facebook的良好用戶體驗175
圖522DMM基本思路175
圖523CMM基本思想177
圖524CMM成熟度等級177
圖525DMM關鍵過程域178
圖526DMM層級劃分及描述180
圖527IDEAL模型182
圖528機構數據管理能力成熟度評估結果的可視化182
圖529數據戰略與目標的區別183
圖530數據戰略的目標183
圖531數據戰略的側重點184
圖532數據戰略的影響因素184
圖533數據管理與數據治理的區別185
圖534IBM提出的企業數據管理的範疇186
圖535數據治理的PDCA模型187
圖536DGI數據治理框架188
圖61奧巴馬2012年總統競選芝加哥總部191
圖62George Clooney192
圖63Sarah Jessica Parker192
圖64奧巴馬及快速捐贈計劃193
圖65奧巴馬通過Reddit與選民互動195
圖66女性體重與身高的線性回歸分析198
圖67KMeans演演算法的基本步驟208
圖68工資數據的可視化215
圖69起飛延誤時間227
圖610落地延誤時間227
圖附A1如何參考附錄A232
表目錄
表11結構化數據、非結構化數據與半結構化數據的區別與聯繫3
表12某數據科學家的畫像(Profile)27
表21參數估計與假設檢驗37
表22機器學習的相關學科45
表23已知6部電影的類型及片中出現的接吻和打鬥次數47
表24已知電影與未知電影的距離47
表25分析學習和歸納學習的比較52
表26Anscombe四組數據(Anscombes Quartet)56
表31測試數據A65
表32測試數據B65
表33測試數據C65
表34Pew論壇部分人員信仰與收入數據統計(整齊化處理之前)65
表35Pew論壇部分人員信仰與收入數據統計(整齊化處理之後)66
表36探索性統計中常用的集中趨勢統計量67
表37探索性統計中常用的離散程度統計量67
表38探索性統計中常用的數據分佈統計量67
表39數據變換的類型74
表310十進位首位數字的出現概率80
表311數據分析中常見錯誤85
表312數據類型及所支持的操作類型93
表313數據類型與視覺通道的對應關係圖93
表314數據故事化中的“應該”與“不應該”99
表315數據科學項目中的主要角色及其任務101
表41RDD常用的Transformation132
表42RDD常用的Actions132
表43RDD的存儲級別133
表44R與Spark數據類型的映射關係135
表45典型雲資料庫產品138
表46NoSQL中常用的數據模型139
表47R與Python對比149
表48雲計算的層次性151
表51數據轉換與數據加工的區別158
表52谷歌十大產品與服務158
表53數據管理成熟度模型的過程域分類179
表61數據集Women195
表62Protein數據集206
表63Salaries數據集213
表64Spark版本差異性220
表65Spark與R的數據類型對比220
表66SparkR與sparklyr比較228