網站採集
專業術語
網站採集,專業術語,是指利用軟體,將別的網站的內容,轉載到另一個網站上的行為。這個過程由採集軟體自動完成。
一般大型網站建站的時候,固定的內容(如新聞、下載等)都是使用固定模板、自動生成靜態頁面的方式。這樣就使得在源碼中表格等設置都是一致的。網站採集就是利用這樣的一個原理,搜索頁面中與採集設置相同的部分,然後搜集網站內容進入資料庫。
網站管理員會定時從同一網站上抓取內容,希望已經抓取的內容不要再發布到網站系統中。對於一些網站,需要登陸才能獲取頁面。網站管理員希望通能夠通過一個內容列表頁面獲取所有的相關內容,包括內容列表的其它分頁。當第二次抓取相同網站時,希望不要再重複第一次的設定。
網站管理員從網際網路中收集各類圖片、笑話、新聞、技術等各類信息,然後分類、編輯,發布到自己的網站系統中。網站管理員一般通過搜索引擎搜索各類關鍵字獲取目標網址,然後再提取網頁中的內容。關鍵字的組織決定獲取內容的準確性和數量。由於內容來自不同的網站,所以提取內容的方法也各不相同。對於某一類的信息,發布到網站系統的數據結構是相同的。
網站管理員對站內進行搜索,將相關的內容在首頁上進行編排和索引。
企業從網際網路上搜索email和電話號碼,並且能夠查看該信息的相關信息,以便了解該對象的基本情況。企業希望能夠搜索某一類別的客戶信息,如這個客戶屬於女性,年齡為20到30歲等。並且能夠將採集到的對象信息保存到企業內部的客戶管理系統中。
企業辦公產生的電子文檔,客戶提交的客戶資料等這些數據,一般需要大量的人力手工輸入到企業的ERP系統或信息系統中,企業希望能夠通過軟體從這些文檔中抽取相關的數據自動導入到系統中。這些數據一般都有固定的模板格式,並且同一類文檔的模板格式是相同的。如客戶的家庭信息,客戶1和客戶2的模板格式是一樣的,只是內容不一樣。
● ● 及時反饋:任務採集過程所見即所得,過程中遍歷的鏈接信息、採集信息、錯誤信息等都會及時的反映在軟體界面中。
● ● 保存數據:數據邊採集邊自動保存到關係資料庫中,並且數據結構能夠自動適應,軟體可以根據採集規則自動創建資料庫,以及其中的表和欄位,也可以根據設置靈活的將數據保存到客戶已有的資料庫結構中,這一切都不會對你的資料庫和你的生產造成任何不利影響。
● ● 斷點續采:信息採集任務可以在停止后從斷點開始繼續採集,從此不再擔心你的採集任務意外中斷了。
● ● 信息自動識別:提供諸如Email地址、電話號碼、數字等多種預先定義好的信息類型,用戶經過簡單的選取即可從浩瀚的網路信息中提取特定的信息。
● ● 文件下載:可以將採集到的二進位文件(諸如:圖片、音樂、軟體、文檔等等)下載到本地磁碟或者採集結果資料庫中。
● ● 採集結果分類:可以根據用戶定義的分類信息進行採集結果的自動分類。