長尾分佈

長尾分佈

長尾分佈(long-tailed distributions)是重尾分佈的一個子類型。

概念


在20世紀30年代,美國哈佛大學語言學家齊普夫發現,將一文本中的詞按照它們在文本中的出現(或使用)次數由高至低排列,以r表示序號(又稱等級),g(r)表示序號為r的詞在文本中的出現次數,則r的某一冪次r(β)和g(r)的乘積漸近為一常數,即g(r)*r(β)≈c。人們將關係式g(r)=cr(-β)(β>0,c>0)稱為齊普夫定律,因而,長尾分佈就是齊普夫定律。

一般描述


網際網路上從歌曲和軟體的下載、網頁的點擊到網上店鋪的銷售,都呈現長尾分佈的特徵。長尾分佈也與對流行事物進行統計排名的“排行榜”文化有關。網上音樂資料庫容量巨大,下載方式非常便捷。把曲目按照下載量排序,可近似地得到一條遞減曲線。在曲線的頭部,熱門曲目被大量下載。接下來,隨著流行程度的降低(對應為序號的增大),曲線突然下降。但有趣的是,在尾部曲線並沒有迅速墜落到零,而是極其緩慢地貼近於橫軸,粗看上去幾乎與橫軸平行延伸(這說明很不熱門的曲日仍然保持著一定的下載率)。這種特殊的排序(即排名)與下載量之間的對應關係就是長尾分佈。