社團結構
社團結構
近年來對眾多實際網路的研究發現,它們存在一個共同的特徵,稱之為網路中的社團結構。它是指網路中的頂點可以分成組,組內頂點間的連接比較稠密,組間頂點的連接比較稀疏。
關於網路中的社團結構目前還沒有被廣泛認可的唯一的定義,較為常用的是基於相對連接頻數的定義:網路中的頂點可以分成組,組內連接稠密而組間連接稀疏。這一定義中提到的“稠密”和“稀疏”都沒有明確的判斷標準,所以在探索網路社團結構的過程中不便使用。因此人們試圖給出一些定量化的定義,如提出了強社團和弱社團的定義。強社團的定義為:子圖V中任何一個頂點與y內部頂點連接的度大於其與V外部頂點連接的度。弱社團的定義為:子圖V中所有頂點與V內部頂點的度之和大於V中所有頂點與V外部頂點連接的度之和。此外,還有比強社團更為嚴格的社團定義——LS集,一個LS集是一個由頂點構成的集合,它的任何真子集與該集合內部的連邊都比與該集和外部的連邊多。
另一類定義則是以連通性為標準定義社團,稱之為派系。一個派系是指由3個或3個以上的頂點組成的全連通子圖,即任何兩點之間都直接相連。這是要求最強的一種定義,它可以通過弱化連接條件進行拓展, 形成n-派系。例如:2-派系是指子圖中的任意兩個頂點不必直接相連,但最多通過一個中介點就能夠連通。3-派系是指子圖中的任意兩個頂點,最多通過兩個中介點就能連通。隨著n值的增加,n-派系的要求越來越弱。這種定義允許社團間存在重疊性。所謂重疊性是指單個頂點並非僅僅屬於一個社團,而是可以同時屬於多個社團。社團與社團由這些有重疊歸屬的頂點相連。有重疊的社團結構問題有研究的價值,因為在因為在實際系統中,個體往往同時具有多個群體的屬性。除上述提到的社團定義以外,還有多種其他定義方式,文獻進行了更為詳細的介紹。
照複雜網路中社團形成的過程,網路中社團結構的劃分思路大體可以分成4類:凝聚過程、分裂過程、搜索過程和其他過程。凝聚過程是以頂點為基礎,通過逐步凝結形成社團。其主要步驟為:1)設定某種標準可以衡量社團與社團之間的距離或相似度;2)將網路中的每一個頂點視為一個社團,所以網路中有多少頂點就有多少初始社 團,並且每個社團只包含一個頂點;3)根據設定的衡量標準,計算社團與社團間的距離或相似度,並將距離 最近的社團或相似度最高的社團合併在一起形成新的社團;4)重新計算每對社團間的距離或相似度;5)不斷重複合併及重新計算的步驟,直到所有頂點都聚集成一個社團。整個過程可以用一個倒立的樹狀圖表示。
樹狀圖
搜索過程不拘泥於統一的凝結或分裂,而是建立一個逐步優化目標的探索過程,社團結構直接由最後的優化結果給出。搜索的方法可以應用成型的演演算法,Potts模型演演算法中就應用了模擬退火演演算法進行搜索。
由於各種劃分方法在判斷標準,優化思路、搜索步驟等方面的不同,每種劃分演演算法都有其自身的複雜度。複雜度往往與被研究網路的頂點數目、邊的數目、層次的數目、社團的數目有關。劃分方法的複雜度越高劃分所需的時間越長。對於較小的網路,劃分方法所需時間的長短不會產生本質的影響。然而由於受到計算機技術的制約,一種劃分方法的複雜度決定該劃分方法能否運用於大規模的網路。可見,演演算法複雜度既是判斷劃分方法速度的標準,又是判斷劃分方法適用範圍的標準。複雜度越小的劃分方法,劃分的速度越快,適用的網 絡規模越大。因此,構造複雜度低的演演算法,是科研工作者的目標之一。
檢驗劃分方法的網路有兩大類:人造網和實際網。之所以要構建人造網,是因為人造網的結構可以人為給定,在分析之前就擁有較多的已知信息,從而可以用來檢驗劃分方法的有效性及正確率。另外,人造網的參數可以調控,從而可以研究劃分方法的適用範圍,以及劃分正確率與參數的聯繫。常用的人造網是由128個頂點構成的網路,這128個頂點被平均分成4份,形成4個社團,每個社團包含32個頂點。頂點之間相互獨立的隨機連邊,如果兩頂點屬於一個社團,則以概率P_in相連,如果兩點屬於不同的社團,則以概率P_out相連。P_in和P_out的取值,保證每個頂點的度的期望值為16。記Z_in為頂點與社團內部頂點連邊數目的期望值,Z_out為頂點與社團外頂點連邊數目的期望值,從而Z_in+Z_out=16。Z_out越小,說明頂點與社團外頂點的連邊越少,網路的社團結構越明顯; Z_out越大,說明頂點與社團外頂點的連邊越多,網路越混亂,社團結構越不明顯。對於 Z_out值大的網路還能夠基本正確對網路進行劃分的方法,在實際應用中適用範圍更廣,價值更大。眾多方法的實踐表明,當Z_out的取值在一定範圍內時,其值對頂點劃分正確率沒有影響,並且正確率都保持在100%, 然而當Z_out的取值超過這一臨界值之後,網路中頂點被正確劃分的比率與Z_out的取值呈現負相關關係,即Z_out越大,頂點被正確劃分的比例越低。
人造網的檢驗在一定程度上反映了劃分方法的有效性。然而,由於人們感興趣的問題大多是實際網路, 所以需要用實際網路對劃分方法進行再檢驗。選擇用作檢驗的實際網路時,首先要保證構建網路的數據是方 便易得的;其次要保證網路有實際的意義,從而可以判斷社團劃分的結果是否具有可解釋性;另外為了方便劃分方法間的比較,宜採用已被廣泛使用的實際網路。
空手道俱樂部網:20世紀70年代初,Wayne Zachary觀察了美國大學空手道俱樂部成員間的人際關係,並依據俱樂部成員間平時的交往狀況建立了一個網路。這個網路包含34個頂點,代表了俱樂部成員;包含了78條邊,代表他們之間的人際關係。由於突發的原因,俱樂部管理者與俱樂部主要教師之間針對是否提高收費這一問題產生了激烈的爭論,並最終導致俱樂部分裂成兩部分。圖4為空手道俱樂部網,其中方形頂點代表歸於俱樂部管理者(1號頂點)的成員,圓形頂點代表歸於俱樂部主要教師(33號頂點)的成員。
空手道俱樂部人際關係
類似的還有根據美國大學橄欖球隊2000年一個賽季的賽程建立的網路,其中頂點代表大學的橄欖球隊,共有115支大學橄欖球隊,連邊表示兩隊之間進行了常規賽,這一賽季共包含616場常規賽;根據Linda Wolfe收集的猴子3個月的活動數據,通過猴子之間相互刷毛的關係抽象出的網路舊引,其中16個頂點代表16 只猴子,若兩隻猴子相互刷毛則用邊連接起來,共有69條邊。在這些實際網路中,除了空手道俱樂部網和美國大學橄欖球比賽網有可以判斷劃分準確性的已知社團結構,其他網路並沒有這樣的標準,因此用來判斷劃分方法優劣的標準是劃分結果是否具有可解釋性。雖然這樣的判斷標準是不嚴謹的,然而社團結構劃分的主要對象正是這樣未知結果的網路,因此結果更具解釋性的劃分演演算法更有價值。
隨著關注網路社團結構問題的科研工作者不斷增加,眾多劃分網路社團結構的演演算法被設計出來。根據不同的標準,這些演演算法可以被分成不同的種類。例如:根據社團結構的形成過程,演演算法可以分為凝聚演演算法、分裂演演算法,搜索演演算法及其他演演算法4大類。從演演算法的物理背景上考慮,又可以將其分為基於網路拓撲結構的演演算法,基於網路動力學的演演算法,基於Q函數優化的演演算法及其他演演算法。
社團結構在實際系統中有著重要的意義:在人際關係網中,社團可能基於人的職業、年齡等因素形成;在引文網中,不同社團可能代表了不同的研究領域;在萬維網中,不同社團可能表示了不同主題的主頁;在新陳代謝網、神經網中,社團可能反映了功能單位;在食物鏈網中,社團可能反映了生態系統中的子系統。在網路性質和功能的研究中,社團結構也有顯著的表現。例如:在網路動力學的研究中,當外加能量處於較低水平時同一社團的個體就能達到同步狀態;在網路演化的研究中,相同社團內的個體可能最終連接在一起。總之,對網路中社團結構的研究是了解整個網路結構和功能的重要途徑。
複雜網路社團結構分析在實際問題中還沒有得到廣泛的應用,僅僅涉及Intemet網、科學家合作網等領域,但其在大腦系統、生物系統、經濟系統、管理系統等領域的應用可能會揭示出以往方法未發掘的信息。不僅如此,網路社團結構對實際問題還有著指導意義。因此,社團結構對分析解決實際問題的價值需要進一步的探討。