垂直搜索引擎

垂直搜索引擎

垂直搜索引擎是針對某一個行業的專業搜索引擎,是搜索引擎的細分和延伸,是對網頁庫中的某類專門的信息進行一次整合,定向分欄位抽取出需要的數據進行處理后再以某種形式返回給用戶。垂直搜索是相對通用搜索引擎的信息量大、查詢不準確、深度不夠等提出來的新的搜索引擎服務模式,通過針對某一特定領域、某一特定人群或某一特定需求提供的有一定價值的信息和相關服務。其特點就是“專、精、深”,且具有行業色彩,相比較通用搜索引擎的海量信息無序化,垂直搜索引擎則顯得更加專註、具體和深入。

概述


定義

垂直搜索引擎是應用於某一個行業、專業的搜索引擎,是搜索引擎的延伸和應用細分化。垂直搜索引擎為用戶提供的並不是上百甚至上千萬相關網頁,而是範圍極為縮小、極具針對性的具體信息。因此,特定行業的用戶更加青睞垂直搜索引擎。

前景

搜索引擎的出現,整合了眾多網站信息,恰恰起到了信息導航的作用。通用搜索引擎就如同網際網路第一次出現的門戶網站一樣,大量的信息整合導航,極快的查詢,將所有網站上的信息整理在一個平台上供網民使用,於是信息的價值第一次普遍的被眾多商家認可,迅速成為網際網路中最有價值的領域。網際網路的低谷由此演變為第二次高峰。大家熟知的搜索引擎Google、百度、雅虎等是通用搜索引擎現如今的傑出代表,他們為網際網路的發展做出了重要的貢獻。然而,搜索引擎行業也不是一家公司就可以獨撐天下的,從百度的上市、yahoo中國的併購一系列動作表明,如今的搜索引擎大戰如同門戶網站初期的競爭一樣激烈。相信,通用搜索引擎在經歷過一段時間的角逐后,也將會繼續維持幾大服務商各自分控一部分市場的局面。
垂直搜索引擎概念的提出,就是針對性的為某一特定領域、某一特定人群或某一特定需求提供的有一定價值的信息和相關服務。可以簡單的說成是搜索引擎領域的行業化分工。眾多專業性網站、行業網站獨立服務於網際網路的成功,恰恰證明了網際網路的格局應該是多方面的。通用搜索引擎的性質,決定了其不能滿足特殊領域、特殊人群的精準化信息需求服務。市場需求多元化決定了搜索引擎的服務模式必將出現細分,針對不同行業提供更加精確的行業服務模式。可以說通用搜索引擎的發展為垂直搜索引擎的出現提供了良好的市場空間,勢必將出現垂直搜索引擎在網際網路中佔據部分市場的趨勢,也是搜索引擎行業細分化的必然趨勢。

異同點


策略異

垂直搜索不只是類google的行業通用搜索。以房產行業為例,如果我們按照google抓取網頁的方式,來建造一個房產行業google的做法,是行不通的。技術壁壘不用解釋,就算我們藉助nutch,lucene等搜索技術來做,我們也無法提供差異化的服務,而沒有差異化的產品在網際網路贏家通吃的規則下是無法生存的,就是不要簡單地模仿,而要想辦法形成互補。

技術不同

垂直搜索和google,baidu等通用搜索從定位,內容,用戶,市場策略等都是不同的。所以垂直搜索不只是簡單的行業google。用戶使用google,baidu等通用搜索引擎的方式是通過關鍵字的方式實現的,是語義上的搜索,返回的結果傾向於知識成果,比如文章,論文,新聞等;垂直搜索也是提供關鍵字來進行搜索的,但被放到了一個行業知識的上下文中,返回的結果更傾向於信息,消息,條目等。對買房的人講,他希望找的房子供求信息和文章,新聞等不同。這個特性是他們各自的的技術特點決定的。打個比方,如果google搜索引擎是一個正金字塔型,那麼垂直搜索引擎就是個倒金字塔型,兩者是互補的。

特點


垂直搜索的特點:
1、搜索是一個產業商業聯盟的平台,一個集成產業鏈的上下游公司的搜索門戶。
2、垂直搜索的表現方式和google,baidu的表現方式不同,結構化的搜索和非結構化搜索並用。
3、從廣告模式上 提供了除 google adsense 和百度競價排名廣告 之外的另一種可能。

來源


內容

1、門戶網站自身的資源。
2、以開放介面方式讓行業用戶提供的資源。
3、普通用戶發布的資源。
4、抓取行業用戶的資源。

數據

1、垂直搜索引擎抓取的數據來源於垂直搜索引擎關注的行業站點。
2、垂直搜索引擎抓取的數據傾向於結構化數據和元數據。
3、垂直搜索引擎的搜索行為是基於結構化數據和元數據的結構化搜索。

門檻


進入垂直搜索的門檻在哪裡?
在網際網路上說門檻,就是比資源。垂直搜索也是這樣,能否提供全面權威的行業信息,能否擁有行業資源是垂直搜索引擎發展的門檻。換句話說,垂直門戶是垂直搜索血統最近的父親。作為房產行業的房產網就是一個垂直門戶,在房產領域沒有誰比我們更清楚什麼是垂直搜索了。
垂直搜索的難點不是技術,而是用戶參與門戶網站行為的創新和垂直門戶網站對產業上下游信息資源的整合。

準則


1、選擇一個好的垂直搜索方向。俗話說男怕選錯行,這一點對於搜索引擎來說也是一樣的,除了選擇的這個行業有垂直搜索的大量需求外,這個行業的數據屬性最好不要和通用搜索的的抓取方向重疊。熱門的垂直搜索行業有:購物,旅遊,汽車,工作,房產,交友等行業。搜索引擎對動態url數據不敏感也是眾所周知的,這些可以作為垂直搜索引擎的切入點。
2、評價所選垂直搜索行業的網站、垂直搜索內容、行業構成等情況:我們都知道垂直搜索引擎並不提供內容來源,它的數據依賴爬蟲搜集,並做了深度加工而來的。因此考慮垂直搜索引擎的所處的大環境和定位至關重要。
3、深入分析垂直搜索引擎的索引數據特點:垂直搜索引擎的索引數據過於結構化,那麼進入的門檻比較低,行業競爭會形成一窩蜂的局面;如果搜索數據特點是非結構化的,抓取,分析這樣的數據很困難,進入壁壘太高,很可能出師未捷身先死。
4、垂直搜索引擎的索引數據傾向於結構化數據和元數據,這個特點是區別於通用搜索引擎的,這是垂直搜索引擎的立足點。而垂直搜索引擎是根植於某一個行業,因此行業知識,行業專家這些也是通用搜索引擎不具備的。也就是說進入垂直搜索是有門檻的。
5、垂直搜索引擎的搜索結果要覆蓋整個行業,搜索相關性要高於通用搜索引擎,貼近用戶搜索意圖,搜索結果要及時。
6、垂直搜索引擎的搜索數據由於帶有結構化的天性,相對於通用搜索引擎的全文索引而言,更顯的少而精。因此,設計的時候要提供收集用戶數據的介面,同時提供tag,積分等機制,使搜索結果更加“垂直”。
7、垂直搜索引擎的目標是幫助用戶解決問題,而不只是像通用搜索引擎一樣發現信息:這一點是垂直搜索引擎的終極目標。在做垂直搜索引擎的時候你需要考慮:什麼問題是這個行業內的特殊性問題,什麼問題是一般性問題。keso多次提到google的目標是讓用戶儘快離開google,而垂直搜索引擎應該粘住用戶。一般來說,使用垂直搜索引擎的用戶都是和用戶的利益需求密切相關的。所謂利益需求是我自己獨創的,大意是和用戶工作密切相關,生活中必不可少的需求,而求有持續性。比如:學生找論文,業主找裝修信息等等這樣的需求。因此粘住用戶,讓用戶有反饋的途徑是一個關鍵部分。
8、垂直搜索引擎的社區化特徵:這一條和第7條是相關的。俗話說物以類聚,人以群分,垂直搜索引擎定位於一個行業,服務於一群特定需求的人群,這個特點決定了垂直搜索的社區化行為。人們利用垂直搜索引擎解決問題,分享回饋。做網站都講求社區化,所以垂直搜索引擎本質上還是:對垂直門戶信息提供方式的一次簡化性的整合。

特徵


快速

1.中文直達。直達各大知名網站、論壇、聯盟站點,數據實時更新,中文直達服務讓用戶搜索一步到位。
2.關鍵詞直達網站。商家可以提交自己的關鍵詞,讓客戶輸入關鍵詞直達您的網站,增加無限商機。
3.站內直達。直達網站內各頻道、欄目,站內直達滿足用戶在網站的全方位服務。

方便

1.功能強大。提供強大的搜索功能, 多款引擎隨時切換, 讓用戶操作變得更加輕鬆便捷。
2.搜索發現。用戶進入搜索首頁,瀏覽器會提示用戶發現了新的搜索引擎, 並可將其設為默認。
3.內容全面。聚合常用搜索及垂直搜索,聚合各大熱門搜索引擎, 多項搜索多重性能。
4.完美兼容。界面設計符合標準, 在不同內核的瀏覽器上均可正常使用。
5.安全第一。收錄大量網上銀行、證券、股票、諮詢、新聞等網址,不再擔心進入釣魚網站。所有直達關鍵詞網站,均嚴格經過叮鈴鈴各項指標的檢驗,有力的排斥了虛假廣告、假冒產品、不良信息的商家網站。

共享

結合網站,按您的需要生成不同樣式、不同功能的搜索框代碼, 輕鬆將搜索服務與網站結合。

精準

垂直搜索引擎一般都提供了比較精準或者細化的搜索服務,因此使用垂直搜索引擎有時候能取得更精準的搜索結果。附:垂直搜索引擎索引,發布國內外高質量的垂直搜索引擎。

框架


抓取

也就是蜘蛛程序,負責從信息源抓取數據,蜘蛛程序通常是基於預先構造的模板工作的,無模板的蜘蛛程序只能處理結構相對簡單的信息,抓取系統涉及的關鍵技術點有爬行路徑分析、增量抓取與全抓取、信息構造完整性、信息唯一性識別、多網頁信息整合、自動標引(此功能也可以單獨提出)等;

索引

把抓來的信息建立類似書目的數據文件,以便於實現高速檢索。索引系統涉及的關鍵技術點有分詞技術、預評分和后評分、增量索引與全索引、排序技術、熱點詞高速緩存、標準檢索語句解析等;

搜索

就是提供搜索功能的網站,網站的具體表現形式大不相同,但是都提供全文搜索功能,除了搜索功能外,還提供與業務相關的其他功能,譬如按地域導航檢索、會員註冊、訂閱等。很多人把GOOGLE、百度稱之為站外搜索,而把其他基於資料庫的搜索稱之為站內搜索,其實所有的搜索引擎提供的都是站內搜索,數據都是預先存儲在本地的。

案例


垂直搜索

這類搜索引擎很多,這裡以物流全搜索為例。
簡介:擬建全球最大的中文物流信息搜索查詢平台,為全球物流行業提供物流信息發布、搜索查詢服務!物流全搜索是在《物流業調整和振興規劃》大趨勢下,物流行業蓬勃發展的環境中成長起來的物流行業垂直搜索引擎。搜索平台以專業、全面、簡易、自助為建站標準,以“垂直搜索+行業門戶”相結合的建站理念,堅持以成效第一、服務第一的客戶服務理念,為所有需要物流信息和提供物流的客戶服務。
物流全搜索始終致力於全球最大的中文物流信息搜索查詢平台建設,樹立全球中文物流搜索第一品牌,網站建立以來取得良好的社會效益,為廣大物流企業、客戶提供了極大的方便。提供全新的搜索體驗,只需輸入簡單關鍵詞或簡單的選擇就可在指定的分類中搜索到你需要的信息,使用極其方便,滿足行業所有信息查詢需求。
簡評:以行業為目標,專註於物流,專業性強;以簡易物流搜索為核心,秉承當前百度等通用搜索引擎的大氣和完整實用的平台構架,科技含量高;人性化搜索體驗,友好性強。

購物垂直

購物搜索引擎可以理解為搜索引擎的一種細分,即在網上購物領域的專業搜索引擎。
常規意義上基於網頁搜索的搜索引擎在搜索結果中的內容是根據相關性排列的來源於其他網站的內容索引,與此類似,購物搜索引擎的檢索結果也來自於被收錄的網上購物網站,這樣當用戶檢索某個商品時,所有銷售該商品的網站上的產品記錄都會被檢索出來,用戶可以根據產品價格、對網站的信任和偏好等因素進入所選擇的網上購物網站購買產品。
購物搜索引擎與一般的網頁搜索引擎相比的主要區別在於,除了搜索產品、了解商品說明等基本信息之外,通常還可以進行商品價格比較、並且可以對產品和在線商店進行評級,這些評比結果指標對於用戶購買決策有一定的影響,尤其對於知名度不是很高的網上零售商,通過購物搜索引擎,不僅增加了被用戶發現的機會,如果在評比上有較好的排名,也有助於增加顧客的信任。以BizRate為例,用戶不僅可以用多種方式進行檢索,如產品名稱、品牌名、網站名稱等,用戶還可以對產品進行評比,可以發表自己的意見,這些信息也可以被別的用戶參考。因此當用戶使用購物搜索引擎檢索商品時,可以獲得比較豐富的信息,對制定商品購買決策有較大的參考價值。這也從另一個角度說明,網上商店利用購物引擎進行推廣可以增加被用戶發現的機會,從而達到促銷的目的,因而成為網上銷售的一種常用促銷手段。

對比通用搜索


信息處理的區別

垂直搜索引擎和普通的網頁搜索引擎的最大區別是對網頁信息進行了結構化信息抽取,也就是將網頁的非結構化數據抽取成特定的結構化信息數據,好比網頁搜索是以網頁為最小單位,基於視覺的網頁塊分析是以網頁塊為最小單位,而垂直搜索是以結構化數據為最小單位。然後將這些數據存儲到資料庫,進行進一步的加工處理,如去重、分類等,最後分詞、索引再以搜索的方式滿足用戶的需求。舉個例子來說明會更容易理解,比如購物搜索引摹,整體流程大致如下:抓取網頁后,對網頁商品信息進行抽取,抽取出商品名稱、價格、簡介……甚至可以進一步將筆記本式計算機簡介細分成品牌、型號、CPU、內存、硬碟、顯示屏……然後對信息進行清洗、去重、分類、分析比較、數據挖掘,最後通過分詞索引提供用戶搜索、通過分析挖掘提供市場行情報告。
在整個過程中,數據由非結構化數據抽取成結構化數據,經過深度加工處理后以非結構化的方式和結構化的方式返回給用戶。

信息採集的區別

垂直搜索引擎技術同信息採集技術不同的是,信息採集主要是將採集的信息導入本地資料庫,而垂直搜索引擎主要是以網頁的形式展現給用戶。
通用搜索引擎主要是利用Spider程序到網路上搜索,一般是某個特定的周期派出一次將網頁更新,垂直搜索引擎同樣應有Spider程序,但該程序只在一些特定的網路上爬行,並不會對每一個鏈接都感興趣。相對來說,垂直搜索引擎的收錄範圍大大縮小了,但並不意味著內容的縮小,通用搜索引擎對一些動態腳本是不敏感的。另外,由於目前網頁中的鏈接形式非常多,不但有動態腳本也有Flash做鏈接,這些鏈接方式通過傳統的Spider程序是很難解析出來的,在垂直搜索引掌中也應該解決 。