空間數據挖掘

空間數據挖掘

空間數據挖掘是指從空間資料庫中抽取沒有清楚表現出來的隱含的知識和空間關係,並發現其中有用的特徵和模式的理論、方法和技術。空間數據挖掘和知識發現的過程大致可分為以下多個步驟:數據準備、數據選擇、數據預處理、數據縮減或者數據變換、確定數據挖掘目標、確定知識發現演演算法、數據挖掘、模式解釋、知識評價等,而數據挖掘只是其中的一個關鍵步驟。但是為了簡便,人們常常用空間數據挖掘來代替空間數據挖掘和知識發現。

目錄

正文


1. 基於概率論的方法。這是一種通過計算不確定性屬性的概率來挖掘空間知識的方法,所發現的知識通常被表示成給定條件下某一假設為真的條件概率。在用誤差矩陣描述遙感分類結果的不確定性時,可以用這種條件概率作為背景知識來表示不確定性的置信度。
2. 空間分析方法。指採用綜合屬性數據分析、拓撲分析、緩衝區分析、密度分析、距離分析、疊置分析、網路分析、地形分析、趨勢面分析、預測分析等在內的分析模型和方法,用以發現目標在空間上的相連、相鄰和共生等關聯規則,或挖掘出目標之間的最短路徑、最優路徑等知識。目前常用的空間分析方法包括探測性的數據分析、空間相鄰關係挖掘演演算法、探測性空間分析方法、探測性歸納學習方法、圖像分析方法等。
3. 統計分析方法。指利用空間對象的有限信息和/或不確定性信息進行統計分析,進而評估、預測空間對象屬性的特徵、統計規律等知識的方法。它主要運用空間自協方差結構、變異函數或與其相關的自協變數或局部變數值的相似程度實現包含不確定性的空間數據挖掘。
4. 歸納學習方法。即在一定的知識背景下,對數據進行概括和綜合,在空間資料庫數據倉庫)中搜索和挖掘一般的規則和模式的方法。歸納學習的演演算法很多,如由Quinlan提出的著名的C5.0決策樹演演算法、Han Jiawei教授等提出的面向屬性的歸納方法、裴健等人提出的基於空間屬性的歸納方法等。
5. 空間關聯規則挖掘方法。即在空間資料庫(數據倉庫)中搜索和挖掘空間對象(及其屬性)之間的關聯關係的演演算法。最著名的關聯規則挖掘演演算法是Agrawal提出的Apriori演演算法;此外還有程繼華等提出的多層次關聯規則的挖掘演演算法、許龍飛等提出的廣義關聯規則模型挖掘方法等。
6. 聚類分析方法。即根據實體的特徵對其進行聚類或分類,進而發現數據集的整個空間分佈規律和典型模式的方法。常用的聚類方法有K-mean, K-medoids方法、Ester等提出的基於R—樹的數據聚焦法及發現聚合親近關係和公共特徵的演演算法、周成虎等提出的基於信息熵的時空數據分割聚類模型等。
7. 神經網路方法。即通過大量神經元構成的網路來實現自適應非線性動態系統,並使其具有分佈存儲、聯想記憶、大規模并行處理、自學習、自組織、自適應等功能的方法;在空間數據挖掘中可用來進行分類和聚類知識以及特徵的挖掘。
8. 決策樹方法。即根據不同的特徵,以樹型結構表示分類或決策集合,進而產生規則和發現規律的方法。採用決策樹方法進行空間數據挖掘的基本步驟如下:首先利用訓練空間實體集生成測試函數;其次根據不同取值建立決策樹的分支,並在每個分支子集中重複建立下層結點和分支,形成決策樹;然後對決策樹進行剪枝處理,把決策樹轉化為據以對新實體進行分類的規則。
9. 粗集理論。一種由上近似集和下近似集來構成粗集,進而以此為基礎來處理不精確、不確定和不完備信息的智能數據決策分析工具,較適於基於屬性不確定性的空間數據挖掘。
10. 基於模糊集合論的方法。這是一系列利用模糊集合理論描述帶有不確定性的研究對象,對實際問題進行分析和處理的方法。基於模糊集合論的方法在遙感圖像的模糊分類、GIS模糊查詢、空間數據不確定性表達和處理等方面得到了廣泛應用。
11. 空間特徵和趨勢探側方法。這是一種基於鄰域圖和鄰域路徑概念的空間數據挖掘演演算法,它通過不同類型屬性或對象出現的相對頻率的差異來提取空間規則。
12. 基於雲理論的方法。雲理論是一種分析不確定信息的新理論,由雲模型、不確定性推理和雲變換三部分構成。基於雲理論的空間數據挖掘方法把定性分析和定量計算結合起來,處理空間對象中融隨機性和模糊性為一體的不確定性屬性;可用於空間關聯規則的挖掘、空間資料庫的不確定性查詢等。
13. 基於證據理論的方法。證據理論是一種通過可信度函數(度量已有證據對假設支持的最低程度)和可能函數(衡量根據已有證據不能否定假設的最高程度)來處理不確定性信息的理論,可用於具有不確定屬性的空間數據挖掘。
14. 遺傳演演算法。這是一種模擬生物進化過程的演演算法,可對問題的解空間進行高效并行的全局搜索,能在搜索過程中自動獲取和積累有關搜索空間的知識,並可通過自適應機制控制搜索過程以求得最優解。空間數據挖掘中的許多問題,如分類、聚類、預測等知識的獲取,均可以用遺傳演演算法來求解。這種方法曾被應用於遙感影像數據中的特徵發現。
15. 數據可視化方法。這是一種通過可視化技術將空間數據顯示出來,幫助人們利用視覺分析來尋找數據中的結構、特徵、模式、趨勢、異常現象或相關關係等空間知識的方法。為了確保這種方法行之有效,必須構建功能強大的可視化工具和輔助分析工具。
16. 計算幾何方法。這是一種利用計算機程序來計算平面點集的Voronoi圖,進而發現空間知識的方法。利用Voronoi圖可以解決空間拓撲關係、數據的多尺度表達、自動綜合、空間聚類、空間目標的勢力範圍、公共設施的選址、確定最短路徑等問題。
17. 空間在線數據挖掘。這是一種基於網路的驗證型空間來進行數據挖掘和分析的工具。它以多維視圖為基礎,強調執行效率和對用戶命令的及時響應,一般以空間數據倉庫為直接數據源。這種方法通過數據分析與報表模塊的查詢和分析工具(如OLAP、決策分析、數據挖掘等)完成對信息和知識的提取,以滿足決策的需要。