WEB挖掘
WEB挖掘
Web挖掘是數據挖掘在Web上的應用,它利用數據挖掘技術從與WWW相關的資源和行為中抽取感興趣的、有用的模式和隱含信息,涉及Web技術、數據挖掘、計算機語言學、信息學等多個領域,是一項綜合技術。Web內容挖掘。Web內容挖掘是指對Web頁面內容及後台交易資料庫進行挖掘,從Web文檔內容及其描述中的內容信息中獲取有用知識的過程。
Web挖掘發展自數據挖掘。數據挖掘方法通常可以分為兩類:一類是建立在統計模型的基礎上,採用的技術有決策樹、分類、聚類、關聯規則等;另一類是建立一種以機器學習為主的人工智慧模型,採用的方法有神經網路、自然法則計算方法等。
1.Web內容挖掘實現技術
Web上的內容挖掘多為基於文本信息的挖掘,它和通常的平面文本挖掘的功能和方法比較類似。利用Web文檔中部分標記,如Title、Head等包含的額外信息,可以提高Web文本挖掘的性能。
•文本總結。文本總結是指從文檔中抽取關鍵信息,用簡潔的形式對文檔內容進行摘要或解釋。其目的是對文本信息進行濃縮,給出它的緊湊描述。這樣,用戶不需要瀏覽全文就可以了解文檔或文檔集合的總體內容。
•文本分類。分類是在已有數據的基礎上學會一個分類函數或構造出一個分類模型,即通常所說的分類器。
•文本聚類。文本聚類把一組文檔按照相似性歸成若干類別。方法大致可分為層次凝聚法和平面劃分法兩種類型。
•關聯規則。發現關聯規則的演演算法通常要經過以下三個步驟:連接數據,作數據準備;給定最小支持度和最小可信度,利用數據挖掘工具提供的演演算法發現關聯規則;可視化顯示、理解、評估關聯規則。
2.Web使用記錄挖掘實現技術
在挖掘Web用戶使用記錄時描述用戶訪問的數據包括:IP地址、參考頁面、訪問日期和時間、用戶Web站點及配置信息。
發現用戶使用記錄信息的方法有兩種。一種方法是通過對日誌文件進行分析,包含兩種方式:一是先進行預處理,即將日誌數據映射為關係表並採用相應的數據挖掘技術來訪問日誌數據;二是直接訪問日誌數據以獲取用戶的導航信息。另一種方法是通過對用戶點擊事件的搜集和分析發現用戶導航行為。
1、獲取競爭對手和客戶信息。Web不僅由頁面組成,而且還包含了從一個頁面指向另一個頁面的超鏈接。一個Web頁面的作者建立指向另一個頁面的指針,就可以看作是作者對另一頁面的認可。把另一頁面的來自不同作者的註解收集起來,就可以用來反映該頁面的重要性,並可以很自然地用於權威頁面的發現。另外一種重要的Web頁面是一個或多個Web頁面,它提供了指向權威頁面的鏈接集合,稱為Hub。Hub頁面本身可能並不突出,或者說可能沒有幾個鏈接指向它們,但是 Hub頁面卻提供了指向就某個話題而言最為突出的站點的鏈接。通過分析這類信息,企業可以獲得零售商、中間商、合作商以及競爭對手的信息。