數據挖掘工程師

通過演演算法搜索數據中知識的人員

數據挖掘工程師是數據師(Datician['detɪʃən])的一種。一般是指從大量的數據中通過演演算法搜索隱藏於其中知識的工程技術專業人員。這些知識可用使企業決策智能化,自動化,從而使企業提高工作效率,減少錯誤決策的可能性,以在激烈的競爭中處於不敗之地。

基本介紹


分析方法:
數據挖掘
· 分類(Classification)
· 估計(Estimation)
· 預測(Prediction)
· 相關性分組或關聯規則(Affinity grouping or association rules)
· 聚類(Clustering)
· 複雜數據類型挖掘(Text, Web ,圖形圖像,視頻,音頻等)
方法簡介:
·分類(Classification)
首先從數據中選出已經分好類的訓練集,在該訓練集上運用數據挖掘分類的技術,建立分類模型,對於沒有分類的數據進行分類。
例子:
a. 信用卡申請者,分類為低、中、高風險
b. 故障診斷:中國寶鋼集團與上海天律信息技術有限公司合作,採用數據挖掘技術對鋼材生產的全流程進行質量監控和分析,構建故障地圖,實時分析產品出現瑕疵的原因,有效提高了產品的優良率。
注意:類的個數是確定的,預先定義好的
· 估計(Estimation)
估計與分類類似,不同之處在於,分類描述的是離散型變數的輸出,而估值處理連續值的輸出;分類數據挖掘
的類別是確定數目的,估值的量是不確定的。
例子:
a. 根據購買模式,估計一個家庭的孩子個數
b. 根據購買模式,估計一個家庭的收入
c. 估計real estate的價值
一般來說,估值可以作為分類的前一步工作。給定一些輸入數據,通過估值,得到未知的連續變數的值,然後,根據預先設定的閾值,進行分類。例如:銀行對家庭貸款業務,運用估值,給各個客戶記分(Score ~1)。然後,根據閾值,將貸款級別分類。
· 預測(Prediction)
通常,預測是通過分類或估值起作用的,也就是說,通過分類或估值得出模型,該模型用於對未知變數的預言。從這種意義上說,預言其實沒有必要分為一個單獨的類。預言其目的是對未來未知變數的預測,這種預測是需要時間來驗證的,即必須經過一定時間后,才知道預言準確性是多少。
· 相關性分組或關聯規則(Affinity grouping or association rules)
決定哪些事情將一起發生。
例子:
a. 超市中客戶在購買A的同時,經常會購買B,即A => B(關聯規則)
b. 客戶在購買A后,隔一段時間,會購買B (序列分析)
· 聚類(Clustering)
聚類是對記錄分組,把相似的記錄在一個聚集里。聚類和分類的區別是聚集不依賴於預先定義好的類,不需要訓練集。
例子:
a. 一些特定癥狀的聚集可能預示了一個特定的疾病
b. 租VCD類型不相似的客戶聚集,可能暗示成員屬於不同的亞文化群
聚集通常作為數據挖掘的第一步。例如,哪一種類的促銷對客戶響應最好?,對於這一 類問題,首先對整個客戶做聚集,將客戶分組在各自的聚集里,然後對每個不同的聚集,回答問題,可能效果更好。
· 描述和可視化(Description and Visualization)
是對數據挖掘結果的表示方式。一般只是指數據可視化工具,包含報表工具和商業智能分析產品(BI)的統稱。譬如通過Yonghong Z-Suite等工具進行數據的展現,分析,鑽取,將數據挖掘的分析結果更形象,深刻的展現出來。