數據科學家

採用科學方法尋找新洞察的工程師

數據科學家是指能採用科學方法、運用數據挖掘工具對複雜多量的數字、符號、文字、網址、音頻或視頻等信息進行數字化重現與認識,並能尋找新的數據洞察的工程師或專家(不同於統計學家或分析師)。

一個優秀的數據科學家需要具備的素質有:懂數據採集、懂數學演演算法、懂數學軟體、懂數據分析、懂預測分析、懂市場應用、懂決策分析等。

概括介紹


“數據科學家”在2009年由Natahn Yau首次提出,其概念是採用科學方法、運用數據挖掘工具尋找新的數據洞察的工程師。數據科學家集技術專家與數量分析師的角色於一身,與傳統數量分析師相比:後者通常利用企業的內部數據進行分析,以支持領導層的決策;而前者更多的是通過關注面向用戶的數據來創造不同特性的產品和流程,為客戶提供有意義的增值服務。
面向客戶的性質決定了大部分數據科學家擔任公司產品開發或營銷部門的職位,或是效力於首席技術官。那麼數據科學家需要具備哪些核心能力呢?科技記者Derrick Harris在其文章中介紹了數據科學家應具備的一些技能。
他表示,在你詢問別人什麼是數據科學家,或者數據科學家是做什麼的時候,很容易發現:“數據科學家”其實是從“大數據”引發的術語混亂中形成的。數據科學的核心能力被定義為:SQL、統計、預測建模和編程、Python等,這些聽起來很合理。但是很快就有更多名詞添加到其中:Hadoop/MapReduce、機器學習、可視化,甚至還有傳統的數學、物理、計算機科學等類似能力。
許多人呼籲專業領域、商業智慧、創造力及表達能力也是同樣重要的。一個數據科學家不能只擅長數字(這種人被稱為統計學家或分析師),也要能夠理解業務:什麼樣的數據或結果才是有參考性的;能夠找到新的數據集並為其創造新產品;然後能夠讓CEO們理解這一切。這是一個艱巨的任務,這個世界上這類人是很少的。作為頂尖的數據科學家,不要求他們對環境做出什麼積極的改變,但是需要他們嘗試做一些真正先進的東西,幫助大家更好的解決業務上的問題。
數據科學家的六種能力:
1.對數據的提取與綜合能力;
2.統計分析能力;
3.數據洞察與信息挖掘能力;
4.開發軟體能力;
5.網路編程能力;
6.數據的可視化表示能力。
數據科學家涉及學科:
1.計算機科學:數據獲取、數據解析、數據存放、和數據安全
2.數理統計學:數據分析、數據過濾、數據挖掘、和數據優化
3.圖形設計學:顯示數據結果,比如將數據表達成三維圖形,以便更好地理解和利用
4.人機交互學:在用戶和數據之間建立有機聯繫,使得人對數據的使用更方便