共找到3條詞條名為數據科學的結果 展開

數據科學

2016年朝樂門所著書籍

本書是一本系統闡述數據科學的重要專著,深入淺出地講解了大數據及其背後的新理論、新方法與新技術,是大數據時代必讀的經典書籍之一。

內容簡介


數據科學是一門新興的熱門科學,國外一流大學紛紛設立同名課程,相應的專業、課程及書籍也深受歡迎。本書是國內第一部系統闡述數據科學的重要專著,填補了國內此領域的空白。本書在結構設計和內容選擇上不僅充分借鑒了國外著名大學設立的相關課程以及全球暢銷的外文專著,也考慮到了國內相關課程定位與專業人才的培養需求。
本書共包括8個部分(基礎知識、數據預處理、數據統計、機器學習、數據可視化、數據計算、數據管理以及R編程),既涵蓋了數據科學的基本內容,又避免了與相關課程的低級重複。每章設有綜合例題,做到理論學習與動手操作相結合。例題均採用R語言完成數據科學的特定任務。每章的首尾配有“導讀”與“小結”,便於教師的教學和學生的自學。“習題”部分以主動數據收集和分析的開放題目為主,旨在幫助學生提高自我學習能力。書後附有R語言語法,便於入門的教學與學習。
本書可以滿足數據科學、計算機科學與技術、管理學、數據統計、數據分析、圖情檔類等多個專業的老師、學生(含碩士生和博士生)的教學與自學需要。

主要內容


第1章 基礎理論
1.1數據
1.1.2數據維度
1.2大數據
1.2.1內涵與特徵
1.2.2大數據時代的新理念
1.2.3大數據時代的新術語
1.3數據科學概述
1.3.1研究目的
1.3.2理論基礎
1.3.3研究內容
1.3.4基本流程
1.3.5主要原則
1.3.6典型應用
1.4數據科學家
1.4.1主要任務
1.4.2能力要求
1.4.3常用工具
1.4.4團隊工作
1.5數據科學項目
1.5.1角色定義
1.5.2基本流程
1.6應用案例
小結
習題
參考文獻及擴展閱讀資料
第2章 數據預處理
2.1數據質量
2.1.1統計學規律
2.1.2語言學規律
2.1.3數據連續性理論
2.1.4數據鑒別技術
2.1.5探索性數據分析
2.2數據審計
2.2.1預定義審計
2.2.2自定義審計
2.2.3可視化審計
2.3數據清洗
2.3.1缺失數據處理
2.3.2冗餘數據處理
2.3.3雜訊數據處理
2.4數據變換
2.4.1大小變換
2.4.2類型變換
2.5數據集成
2.5.1基本類型
2.5.2主要問題
2.6其他預處理方法
2.6.1數據脫敏
2.6.2數據歸約
2.6.3數據標註
2.7應用案例
小結
習題
參考文獻及擴展閱讀資料
第3章 數據統計
3.1概率分佈
3.1.1正態分佈
3.1.2卡方分佈
3.1.3t分佈
3.1.4F分佈
3.2參數估計
3.2.1點估計
3.2.2區間估計
3.3假設檢驗
3.3.1參數檢驗
3.3.2非參數檢驗
3.4基本分析方法
3.4.1相關分析
3.4.2回歸分析
3.4.3方差分析
3.4.4分類分析
3.4.5聚類分析
3.4.6時間序列分析
3.4.7其他方法
3.5元分析方法
3.5.1加權平均法
3.5.2優化方法
3.6應用案例
小結
習題
參考文獻及擴展閱讀資料
第4章 機器學習
4.1基本概念
4.1.1定義
4.1.2應用
4.2機器學習活動
4.2.1訓練經驗的選擇
4.2.2目標函數的選擇
4.2.3目標函數的表示
4.2.4函數逼近演演算法的選擇
4.3機器學習系統
4.3.1執行器
4.3.2評價器
4.3.3泛化器
4.3.4實驗生成器
4.4主要類型
4.4.1基於實例學習
4.4.2概念學習
4.4.3決策樹學習
4.4.4人工神經網路學習
4.4.5貝葉斯學習
4.4.6遺傳演演算法
4.4.7分析學習
4.4.8增強學習
4.5典型演演算法
4.5.1KMeans演演算法
4.5.2KNN演演算法
4.5.3ID3演演算法
4.6應用案例
小結
習題
參考文獻及擴展閱讀資料
第5章 數據可視化
5.1主要類型
5.1.1科學可視化
5.1.2信息可視化
5.1.3可視分析學
5.2基本模型
5.2.1順序模型
5.2.2循環模型
5.2.3分析模型
5.3常用方法
5.3.1視覺編碼
5.3.2統計圖表
5.3.3圖論方法
5.3.4視覺隱喻
5.3.5圖形符號學
5.3.6面向領域的方法
5.4視覺編碼
5.4.1視覺感知
5.4.2數據類型
5.4.3視覺通道
5.4.4視覺假象
5.5評價與改進
5.5.1測評原則
5.5.2測評流程
5.5.3測評方法
5.6應用案例
小結
習題
參考文獻及擴展閱讀資料
第6章 數據計算
6.1計算模式的演變
6.1.1集中式計算
6.1.2分散式計算
6.1.3網格計算
6.1.4雲計算
6.2主流計算框架——MapReduce
6.2.1基本思想
6.2.2實現過程
6.2.3主要特徵
6.2.4關鍵技術
6.5.5下一代MapReduce
6.3主流計算平台——Hadoop MapReduce
6.3.1數據流
6.3.2任務處理
6.3.3技術實現
6.3.4YARN
6.4其他相關計算系統——Hadoop生態系統
6.4.1HDFS
6.4.2Hive
6.4.3Pig
6.4.4Mahout
6.4.5HBase
6.4.6ZooKeeper
6.4.7Flume
6.4.8Sqoop
6.5應用案例
小結
習題
參考文獻及擴展閱讀資料
第7章 數據管理
7.1基本類型
7.1.1關係資料庫
7.1.2NoSQL
7.1.3關係雲
7.2體系結構
7.2.1MasterSlave結構
7.2.2P2P結構
7.3關鍵技術
7.3.1數據模型
7.3.2數據分佈
7.3.3數據一致性
7.3.4CAP理論與BASE原則
7.3.5視圖與物化視圖
7.3.6事務與版本戳
7.4典型系統
7.4.1Memcached
7.4.2MongoDB
7.4.3Cassandra
7.4.4HBase
7.5應用案例
小結
習題
參考文獻及擴展閱讀資料
附錄A R語言與R軟體
附錄B 術語索引

出版背景


數據科學已成為領域專家必備的知識和能力之一。如今,幾乎所有的專家都在談論大數據,但是部分“專家”並不是真正懂得大數據及其背後的科學——數據科學。在國內,數據科學的系統性研究仍屬空白,人們只知道需要學習這門新興科學,但並不知道如何學習。為此,本書:
(1)是我國最早的系統闡述數據科學的專著之一;
(2)以“經典理論×最佳實踐”為編寫思路,吸收了國內外重要的研究進展與實踐經驗;
(3)提出了數據科學的理論體系,而不是現有文獻的簡單彙編;
(4)加入了作者的創造性研究工作;
(5)利用三年時間精心撰寫的圖書。
但是,學習數據科學確實存在一定的“難度”。就數據科學的理論基礎——統計學、機器學習和可視化分析學而言,很多讀者尤其是社會科學領域的,很容易對其產生“恐懼感”或“距離感”。為此,本書:
(6)以“最深奧的理論÷最簡單的邏輯”為編寫思路,深入淺出,力爭做到“閱讀障礙的最小化”;
(7)以“導讀”形式給出學習建議;
(8)以“圖表”形式揭示數據科學中的重點知識;
(9)以“腳註”形式解釋讀者容易曲解或需要深入了解的難點;
(10)以“實用性”為選擇內容的重要標準,不斷給讀者帶來學習的“成就感”;
(11)以“培養興趣和信心”為撰寫宗旨,並非停留在介紹知識和信息層次。
學習數據科學需要注意理論與實踐相結合。數據科學與其他傳統科學的重要區別之一在於與實踐經驗的耦合度高,讀者不僅需要具備紮實的理論功底,而且應具有熟練的操作能力。為此,本書:
(12)以“理論精講+R編程”為編寫思路,協助讀者提升理論聯繫實踐的能力;
(13)在“案例分析”部分提供了兩個不同的案例——最佳實踐和R編程,供讀者選擇性閱讀;
(14)以“獨特的R代碼註解”和“R編程中的常見問題解答”的方式,幫助讀者快速掌握R編程;
(15)在“習題”中給出的問題不是課程內容的低級重複,而是幫助讀者提升理論聯繫實踐能力與自助學習能力;
(16)在“參考文獻與擴展閱讀文獻”中列出了相關領域的核心文獻
學習數據科學還需要注意與讀者自己的領域知識相結合。數據科學與其他傳統科學的另一個主要區別在於對領域知識的依賴度高。因此,學習應以“掌握面向領域的數據科學”或“發現領域中的數據科學”為主要目的,脫離具體領域的方式學習數據科學必將導致學習行為的空洞化和學習動力不足。為此,本書:
(17)以“全集知識-領域差異性知識”為編寫思路,在基本內容的設計與選擇上,力爭做到領域共性;
(18)在學習建議和習題安排上,盡量體現出不同領域的差異性;
(19)在內容細節的編寫思路上,鼓勵讀者在自己的領域中使用數據科學的知識;
(20)從數據科學視角介紹機器學習、統計學、數據可視化等基礎知識,而不是簡單重複這些課程。
數據科學是一門快速發展的新興學科。目前,數據科學仍處於快速發展和不斷演變的過程之中。為此,本書:
(21)充分考慮到其未來發展中“變與不變”的問題,並重點描述“不變”部分;
(22)以“本章小結”方式給出相關理論的發展趨勢,即未來可能“如何變”的問題;
(23)以“習題”方式給出未來理論的變化趨勢及新理論的獲得方法,即“如何跟蹤最新變化”的問題;
(24)在第1章理論基礎中給出數據科學領域的主要期刊、會議、課程、學位項目、代表人物等,以便讀者跟蹤學習,也是屬於“如何跟蹤最新變化”的範疇。
在本書的撰寫過程中,參閱了大量國內外教材、專著、論文、原始數據和相關資料,雖然書中對參考文獻多有標註,但也難免掛一漏萬,敬希相關作者鑒諒,筆者在此謹表示誠摯的謝意。同時,特別感謝:
(25)中國人民大學原常務副校長馮惠玲教授、中國人民大學數據工程與知識工程教育部重點實驗室主任、信息學院院長杜小勇教授,信息資源管理學院院長張斌教授為本書的出版給予的大量指導與關心;
(26)中國人民大學路海娟、楊倩倩、馬廣惠、張瑩等學生參與了部分章節的校對和PPT製作工作;
(27)清華大學出版社領導及編輯,尤其是劉向威博士和薛陽編輯
為本書的出版做出的大量工作;
(28)國家自然科學基金項目(71103020)、國家社會科學基金項目(15BTQ054,12&ZD220)對本專著相關研究提供的資金支持;
(29)長期以來,親人的理解與支持。本人從事基礎研究,淡泊名利,他們卻從不抱怨;
(30)即將為本書提出寶貴意見的您。書中必有不足之處,希望不吝賜教,讓我們共同為數據科學的發展做出貢獻!
2016年5月

編輯推薦


(1)本書是一本系統介紹數據科學的重要的專著,填補了國內此領域的空白。
(2)在結構設計和內容選擇上,不僅充分借鑒了國外著名大學設立的相關課程以及全球暢銷的英文專著,而且也考慮到了國內相關課程定位與專業人才的培養需求。
(3)每章提供了基於R的數據處理例題和領域經典案例,做到理論學習與實踐應用相結合。書後附有R語言基本語法,便於教學與學習。
(4)讀者範圍廣,可以滿足計算機科學與技術類、管理類、統計分析類、圖情檔類等多個專業人才,尤其是碩士生和博士生的教學與自學需要。
(5)每章的首尾配有【導讀】、【小結】、【習題】和【參考文獻及擴展閱讀】,便於教師的教學和學生的自學。習題部分以主動學習型開放題目為主,旨在幫助學生的自學能力。參考文獻部分既提供了引用文獻,又給出了推薦閱讀文獻目錄。

作者簡介


朝樂門,中國人民大學副教授,碩士生導師、中國計算機學會信息系統專委員會委員、ACM高級會員、國際知識管理協會正式成員。清華大學博士后,人民大學博士,北京大學碩士。主持完成國家自然科學基金、國家社會科學基金等重要科學研究項目10餘項;參與完成核高基、973、863等國家重大科研項目10餘項;獲得北京市中青年骨幹教師、Emerald/ EFMD國際傑出博士論文獎、國際知識管理與智力資本傑出成就獎、中國人民大學優秀博士論文獎等獎勵30餘項