冪律
冪律
冪律,冪律來自上世紀20年代對於英語單詞頻率的分析,真正常用的單詞量很少,很多單詞不常被使用,語言學家發現單詞使用的頻率和它的使用優先度是一個常數次冪的反比關係。精確地說,簡單來說,冪律就是兩個通俗的定律,一個是“長尾”理論,只有少數大的門戶網站是很多人關注的,但是還有一個長長的尾巴,就是小網站,小公司。長尾理論就是對冪律通俗化的解釋。另外一個通俗解釋就是馬太效應徠,窮者越窮富者越富。
所謂冪律,是說節點具有的連線數和這樣的節點數目乘積是一個定值,也就是幾何平均是定值,比如有10000個連線的大節點有10個,有1000個連線的中節點有100個,100個連線的小節點有1000個……,在對數坐標上畫出來會得到一條斜向下的直線。
冪律
自然界與社會生活中存在各種各樣性質迥異的冪律分佈現象。
英文單詞
1932年,哈佛大學的語言學專家Zipf在研究英文單詞出現的頻率時,發現如果把單詞出現的頻率按由大到小的順序排列,則每個單詞出現的頻率與它的名次的常數次冪存在簡單的反比關係,這種分佈就稱為Zipf定律,它表明在英語單詞中,只有極少數的詞被經常使用,而絕大多數詞很少被使用。實際上,包括漢語在內的許多國家的語言都有這種特點。
個人收入
19世紀的義大利經濟學家Pareto研究了個人收入的統計分佈,發現少數人的收入要遠多於大多數人的收入,提出了著名的80/20法則,即20%的人口佔據了80%的社會財富。個人收入X不小於某個特定值x的概率與x的常數次冪亦存在簡單的反比關係,即為Pareto定律。
其他形式
Zipf定律與Pareto定律都是簡單的冪函數,我們稱之為冪律分佈;還有其它形式的冪律分佈,像名次—規模分佈,規模—概率分佈,這徠四種形式在數學上是等價的。
冪律分佈表現為一條斜率為冪指數的負數的直線,這一線性關係是判斷給定的實例中隨機變數是否滿足冪律的依據。
實際上,冪律分佈廣泛存在於物理學、地球與行星科學、計算機科學、生物學、生態學、人口統計學與社會科學,經濟與金融學等眾多領域中,且表現形式多種多樣。在自然界與日常生活中,包括地震規模大小的分佈(古登堡-里希特定律),月球表面上月坑直徑的分佈,行星間碎片大小的分佈,太陽耀斑強度的分佈,計算機文件大小的分佈,戰爭規模的分佈,人類語言中單詞頻率的分佈,大多數國家姓氏的分佈,科學家撰寫的論文數的分佈,論文被引用的次數的分佈,網頁被點擊次數的分佈,書籍及唱片的銷售冊數或張數的分佈,每類生物中物種數的分佈,甚至電影所獲得的奧斯卡獎項數的分佈等,都是典型的冪律分佈。以網頁被點擊次數的分佈為例,儘管中國向七千九百萬網民提供的網站接近六十萬個,但只有為數不多的網站,才擁有網民一次訪問難以窮盡的豐富內容,擁有接納許多人同時訪問的足夠帶寬,進而有條件演化成熱門網站,擁有極高的點擊率,像新浪、搜狐、網易等門戶網站。網頁被點擊次數的冪律分佈其冪指數在0.60-1.03之間,而網站訪問量的冪律分佈其冪指數則接近1。克里斯·安德森的“長尾理論”即是冪律的口語化表達。
統計物理學家習慣於把服從冪律分佈的現象稱為無標度現象,即系統中個體的尺度相差懸殊,缺乏一個優選的規模。凡有生命,有進化,有競爭的地方都會出現不同程度的無標度現象。