智能爬蟲

智能爬蟲

垂直搜索的核心技術實際上就是智能爬蟲的技術,也就是說如何將定向或者非定向的網頁抓取下來並進行分析后得到格式化數據的技術。

簡介


那麼衡量一個垂直搜索引擎的好壞主要有以下幾個標準。
A.數據的更新頻率
顧名思義,就是爬蟲從目標網站上爬取數據的頻率。
B.覆蓋網站個數
覆蓋盡量多的網站,對提供的信息數量將是一個保證。
C.單站有效數據抓取率
單個目標網站的有效數據,對數據量的多少有直接的影響。衡量一個爬蟲的重要標準之一。
D.信息抽取完整率和準確率
此項指標的重要度不言而喻。信息的準確率和完整率直接關係到整個搜索引擎搜索結果的質量。
經過發展現有垂直搜索爬蟲分為2種基本模式。
一、定向爬蟲獲取信息,配上手工或者自動的模版進行信息匹配,將信息進行格式化分析存儲。

優勢


基於模版的信息提取技術,能提供更加精準的信息。比如價格,房屋面積,時間,職位,公司名等等。
劣勢:
目標網站難以大面積覆蓋,因為基於模版匹配的信息提取技術,需要人工的參與配置模版,欲要大面積覆蓋各個目標網站,需要大量的人力成本,同樣維護模板也需要很大的人力成本。
二、語義爬蟲全網爬取,爬蟲根據語義識別,自動進行信息格式化分析,並存儲。
優勢:
1、全網非定向抓取目標網站,有效的保證信息數量。
2、不需要人工參與定製和維護模板,有效的保證了自身的人力和維護成本。
劣勢:
相對於第一種模板匹配,根據語義來進行數據抓取,準確率略有下降。
現在大家對該如何衡量一個 智能爬蟲應該有了一定的了解了吧。