支持度

支持度

支持度,簡單的字面理解就是支持的程度。

表示前項與後項在一個數據集中同時出現的頻率。

詞語解釋


支持度,簡單的字面理解就是支持的程度,一般以百分比表示。生活中常見的使用場合有投票、競選、民意調查等,比如某校高一三班進行班委競選,該班級共有學生50名,在班長一職的競選中,張三得到40票。那麼就可以說在該班班長競選中,張三的支持度是:40/50*100%=80%。
該名詞還常出現在數據挖掘的關聯分析中,常跟 置信度(或可信性)一起出現。
如:某超市中有1000個顧客購物,其中200個顧客購買了麵包(物品集A),那麼麵包(物品集A)的支持度為:
P(A)=20%(200/1000)。
關聯規則從一個側面揭示了事務之間的某種聯繫。
支持度和置信度總是伴隨著關聯規則存在的,它們是對關聯規則的必要的補充。
對某條關聯規則而言,如 A -> B (support=30%, confidence= 60%)
其中的support=30%是說,在所有的事務中同時出現A和B的概率,即P(AB)。
而,confidence=60%是說,所有事務中,在A出現的情況下B出現的概率,即P(B|A)。
那麼我們要怎樣設置支持度和置信度呢?
支持度揭示了A和B同時出現的頻率,如果A和B一起出現的頻率非常小,那麼就說明了A和B之間的聯繫
並不大;但若一起出現的頻率非常頻繁,那麼A和B總是相關聯的知識也許已經成為常識而存在了。這就
涉及到如何正確設置支持度的問題。
當然,對資料庫中的隱藏的關聯規則的挖掘有一個重要的性質就是知識總是出現在不同的層面上,
因此這也是一個需要著重考慮的問題。
置信度揭示了B出現時,A是否一定會出現,如果出現則其大概有多大的可能出現。如果置信度為100%,
則說明了B出現時,A一定出現。那麼,對這種情況而言,假設A和B是市場上的兩種商品,就沒有理由不進行捆綁銷售了。
如果置信度太低,那麼就會產生這樣的疑問,A和B關係並不大,也許與B關聯的並不是A。
當然了,就做題而言,往往給出支持度和置信度的要求。在一個具體的數據挖掘任務中,也是用戶自行設置這兩個值。