信息過濾
信息過濾
信息過濾是大規模內容處理的另一種典型應用。它是對陸續到達的信息進行過濾操作,將符合用戶需求的信息保留。
目錄
信息過濾是根據用戶的信息需求,運用一定的標準和技術,從大量的動態信息流中將與用戶無關的信息濾掉,把滿足用戶需求的信息提供給用戶,從而減輕用戶的認知負擔,提高用戶獲取信息的效率。
目前,信息過濾的類型主要有兩種:基於內容的過濾和協作過濾。
(1)基於內容的過濾。基於內容的過濾也被稱為認知過濾,它首先要將信息的內容和潛在用戶的信息需求特徵化,然後再使用這些表述,職能化地將用戶需求同信息相匹配,按照相關度排序把與用戶信息需求相匹配的信息推薦給用戶,其關鍵技術是相似性計算。優點是簡單、有效;缺點是難以區分資源內容的品質和風格,而且不能為用戶發現新的感興趣的資源,只能發現和用戶已有興趣相似的資源。
(2)協作過濾。協作過濾也稱為社會過濾,這種類型支持社會上個人間和組織間的相互關係,並將人們之間的推薦過程自動化。一個數據條款被推薦給用戶,是基於它同其他有相似興趣用戶的需求相關。協作過濾推薦的核心思想是用戶會傾向於利用具有相似意向的用戶群的產品,因此,它在預測某個用戶的利用傾向時是根據一個用戶群的情況而決定的。可見,協作過濾法是找出一群具有共同興趣的使用者形成社群,也就是有某些相似特性成員的集合,透過分析社群成員共同的興趣與喜好,再根據這些共同特性推薦相關的項目給同一社群中有需求之成員。其優點是對推薦對象沒有特殊要求,能處理非結構化的複雜對象,並且可以為用戶發現新的感興趣的資源,這種過濾類型對那些不是很清楚自己的信息需求或者表達信息需求很困難的用戶非常重要;缺點是存在兩個很難解決的問題:其一是稀疏性問題,即在系統使用初期,由於系統資源還未獲得足夠多的評價,系統很難利用這些評價來發現相似的用戶;另一是可擴展,即隨著系統用戶和信息資源的逐漸增長,其可行性將會降低。Web2.0作為新一代網際網路的總稱,其典型的應用有:RSS、Blog、Wiki、社會書籤等,在這些典型應用中,上述兩種類型的過濾都在其中得到了很好的應用,除此之外,由於Web2.0獨具的開放性、互動性和雙向性等特點,其環境下的信息過濾方式又具有自己的特色。