聚類分析法

聚類分析法

聚類分析法是理想的多變數統計技術,主要有分層聚類法和迭代聚類法。聚類分析也稱群分析、點群分析,是研究分類的一種多元統計方法。

例如,我們可以根據各個銀行網點的儲蓄量、人力資源狀況、營業面積、特色功能、網點級別、所處功能區域等因素情況,將網點分為幾個等級,再比較各銀行之間不同等級網點數量對比狀況。

概述


1、基本思想:我們所研究的樣品(網點)或指標(變數)之間存在程度不同的相似性(親疏關係——以樣品間距離衡量)。於是根據一批樣品的多個觀測指標,具體找出一些能夠度量樣品或指標之間相似程度的統計量,以這些統計量為劃分類型的依據。把一些相似程度較大的樣品(或指標)聚合為一類,把另外一些彼此之間相似程度較大的樣品(或指標)又聚合為另一類,直到把所有的樣品(或指標)聚合完畢,這就是分類的基本思想。在聚類分析中,通常我們將根據分類對象的不同分為Q型聚類分析和R型聚類分析兩大類。
R型聚類分析是對變數進行分類處理,Q型聚類分析是對樣本進行分類處理。
R型聚類分析的主要作用是: 1、不但可以了解個別變數之間的關係的親疏程度,而且可以了解各個變數組合之間的親疏程度。
2、根據變數的分類結果以及它們之間的關係,可以選擇主要變數進行回歸分析或Q型聚類分析。
Q型聚類分析的優點是: 1、可以綜合利用多個變數的信息對樣本進行分類; 2、分類結果是直觀的,聚類譜系圖非常清楚地表現其數值分類結果; 3、聚類分析所得到的結果比傳統分類方法更細緻、全面、合理。
為了進行聚類分析,首先我們需要定義樣品間的距離。常見的距離有: ① 絕對值距離 ② 歐氏距離 ③ 明科夫斯基距離 ④ 切比雪夫距離

方法


聚類的幾種方法:

(1)直接聚類法

先把各個分類對象單獨視為一類,然後根據距離最小的原則,依次選出一對分類對象,並成新類。如果其中一個分類對象已歸於一類,則把另一個也歸入該類;如果一對分類對象正好屬於已歸的兩類,則把這兩類並為一類。每一次歸併,都劃去該對象所在的列與列序相同的行。經過次就可以把全部分類對象歸為一類,這樣就可以根據歸併的先後順序作出聚類譜系圖。

(2)最短距離聚類法

最短距離聚類法,是在原來的距離矩陣的非對角元素中找出,把分類對象和歸併為一新類,然後按計算公式 計算原來各類與新類之間的距離,這樣就得到一個新的階的距離矩陣;再從新的距離矩陣中選出最小者,把和歸併成新類;再計算各類與新類的距離,這樣一直下去,直至各分類對象被歸為一類為止。

(3)最遠距離聚類法

最遠距離聚類法與最短距離聚類法的區別在於計算原來的類與新類距離時採用的公式不同。最遠距離聚類法所用的是最遠距離來衡量樣本之間的距離。