火車頭
採集軟體
火車採集器(LocoySpider) 是一個供各大主流文章系統,論壇系統等使用的多線程內容採集發布程序。使用火車採集器,你可以瞬間建立一個擁有龐大內容的網站。系統支持遠程圖片下載,圖片批量水印,Flash下載,下載文件地址探測,自製作發表的cms模塊參數,自定義發表的內容等有關採集器。對於數據的採集其可以分為兩部分,一是採集數據,二是發布數據。
火車頭採集器標誌
LocoySpider採用Visual C#編寫,可獨立在Windows2008下運行(windows2003 自帶.net1.1框架。最新版的火車採集器是2008版,需要升級到.net2.0框架才能使用),如您在Windows2000、Xp等環境下使用,請先到微軟官方下載一個.net framework2.0或更高環境組件。火車採集器V2009 SP2 04月29日
火車採集器如何去抓取數據,取決於您的規則。您要獲取一個欄目的網頁里的所有內容,需要先將這個網頁的網址採下來,這就是采網址。程序按您的規則抓取列表頁面,從中分析出網址,然後再去抓取獲得網址的網頁里的內容。再根據您的採集規則,對下載到的網頁分析,將標題內容等信息分離開來並保存下來。如果您選擇了下載圖片等網路資源,程序會對採集到的數據進行分析,找出圖片,資源等的下載地址並下載到本地。
在我們將數據採集下來后數據默認是保存在本地的,我們可以使用以下幾種方式對數據進行處理。
1、不做任何處理。因為數據本身是保存在資料庫的(access、db3、mysql、sqlserver),您如果只是查看數據,直接用相關軟體打開查看即可。
2、Web發布到網站。程序會模仿瀏覽器向您的網站發送數據,可以實現您手工發布的效果。
3、直接入資料庫。您只需寫幾個SQL語句,程序會將數據按您的SQL語句導入到資料庫中。
4、保存為本地文件。程序會讀取資料庫里的數據,按一定格式保存為本地sql或是文本文件。
火車採集器採集數據是分成兩個步驟的,一是採集數據,二是發布數據。這兩個過程是可以分開的。
1、採集數據,這個包括採集網址,採集內容。這個過程是獲得數據的過程。我們做規則,在採的過程中也算是對內容做了處理。
2、發布內容就是將數據發布到自己的論壇,CMS的過程,也是實現數據為已有的過程。可以用WEB在線發布,資料庫入庫或存為本地文件。
具體的使用其實是很靈活的,可以根據實際來決定。比如我可以採集時先採集不發布,有時間了再發布,或是同時採集發布,或是先做發布配置,也可以在採集完了再添加發布配置。總之,具體過程由您而定,火車採集器的強大功能之一也就是體現在靈活中。
無限級多頁採集
任務隊列運行管理功能
無限級分組任務管理,任務回收站功能
RSS地址採集功能
列表頁分頁採集獲取功能
列表頁附加參數獲取功能
列表頁及標籤XPath可視化提取功能
標籤純正則替換功能
Http介面查看運行情況
導出記錄為單個或多個Txt、html 文件
標籤間自由組合功能
針對標籤內容繼續發送Http請求功能
無限級列表網址採集
從Http頭信息中獲取數據
標題內容正文提取功能
Aspx列表分頁自識別
多網站站群式web發布
導出記錄為Word格式
導出所有記錄為Excel格式
使用隨機二級代理伺服器(支持Socket代理)
多擴展間數據交換功能
下載的圖片自動加增強型水印功能
Ocr識別(圖片轉化為文字)
Http介面管理採集器運行
Mongodb資料庫保存數據
主從伺服器分散式採集
2012-05-16更新
1.屏蔽掉httpwebpost中瀏覽器的腳本錯誤提示
2.修復使用偏好中的採集器沒有開機啟動和關閉窗口選項沒有啟用的bug
3.對mysql和sqlserver做本地伺服器建了索引,解決了大數據量時查詢出錯的問題
4.細節修改,如在線發布裡面的COOKIS可以全選,多頁默認傳前頁user-agent給多頁
5.增加了多個任務在只使用一個任務運行窗口,減少資源使用
6.更改任務運行完關機方式為只生效一次
7.修復一個當多頁獲取為空時網址成默認頁的bug
8.插件中沒有處理 UseGetStepUrls 的bug
9.httpserver 增加了列表分組,自動啟動,和新建任務返回分組和任務id
10.對用戶對標籤組合再次標籤組合進行了允許處理。
11.修復對列表獲取的內容,部分情況下會補全的bug
12.修復多頁管理時特殊情況下新建標籤沒有保存的bug
13.修復部分情況下標籤提取大小寫無效的bug
14.修復如果一個標籤出現多次時間轉換轉換部分無效的bug.
15.修復了ubb轉換中部分轉換錯誤的bug.
16.增加了將下載地址保存為html文件的功能。
17.增加了web發布時網頁超時設置
18.修複本地資料庫使用Access時任務數據批量工具清理已發數據無效的bug.
19.修復任務完成後關機設置取消后還會再提示關機的bug
20.修改部分電腦上Mongodb服務不能識別的bug
採集規則分為站點規則和任務規則,通常是指任務規則。所謂採集規則就是要採集一個網站時在軟體里進行的設置。這個設置可以從軟體里導出保存成一個文件並可以再導入到軟體里。站點規則文件的後綴名為:.lsite;任務規則文件的後綴名為:.ljob。
採集任務又簡稱為任務。它是採集規則和發布規則的總和。也是採集規則和發布規則的載體。採集規則和發布規則的設置通過在任務編輯框里進行設置。從採集器里導出的採集規則文件(.ljob後綴的)也可稱為任務規則。導入導出任務規則就是指導入導出.ljob文件。
發布模塊又稱為發布規則,通常是指資料庫發布模塊或者WEB發布模塊。所謂發布模塊就是在需要將已經採集的數據發布到目的地(比如:指定資料庫,網站中)時在軟體里進行的設置。這個設置可以保存成一個文件並可以導入到採集器里使用。資料庫發布模塊文件的後綴名為:.jhc;WEB在線發布模塊文件的後綴名為:.cwr。
(採集規則和發布模塊都可以從採集器里導出,也都可以導入到採集器中使用。採集規則負責將網頁上的數據採集下來,發布模塊負責將採集的數據發布到網站中。可見,採集規則的編寫和修改和被採集的網站有關係,而發布模塊的編寫和修改和要發布數據的網站有關係。如從不同的網站欄目採集數據往同一個網站的某個板塊(頻道)里發布,需要多個採集規則和一個發布模塊。從一個網站欄目採集數據往不同的網站系統里發布,需要一個採集規則和多個發布模塊。注意這裡的說的採集規則是指採集網站和抓取內容的設置。)
發布介面就是一個小的頁面程序通常和WEB發布模塊配合使用。WEB在線發布(使用WEB發布模塊)是將採集的數據以POST方式發送到網站頁面程序中由網站程序處理數據。而發布介面就是為了滿足特定需求而寫的一個網站的頁面程序(如:PHP頁面,ASP頁面等)。然後採集器通過WEB在線發布將數據發送到這個介面文件由這個介面文件處理數據。介面文件通常放在伺服器網站某個目錄下。簡單的說就是採集器將採集的數據發送到介面文件中,介面文件得到數據後去處理數據。使用發布介面用戶可以更加靈活自由的處理採集器發送的數據。
火車採集器里的插件分為PHP插件和.NET插件兩種。標準版支持PHP插件,企業版支持PHP插件和.NET插件。插件可以讓用戶通過自己寫PHP程序或者.NET程序放到採集器中對採集的數據進行處理。採集數據數據在四個地方可以使用插件,分別為:采網址時、采內容時、采多頁時,保存時。
發布數據就是將採集到的數據發布到指定的目的地,火車採集器支持四種發布方式。
方式一:Web在線發布到網站
這種發布方式類似於在網站後台手工添加數據一樣。採集器將數據發送給網站後台程序,由網站後台程序去處理數據通常後台程序講數據存入網站資料庫中。
方式二:保存為本地文件
這種方式可以將採集的數據發布到本地的文件中,採集器支持保存成Txt格式、Csv格式和Html格式。
方式三:導入到自定義資料庫
這種方式可以通過採集器連接到其他資料庫從而將採集的數據從軟體內置資料庫中導入到其他的資料庫中,採集器支持連接Mysql、Access、Oracle、MSsql資料庫。
方式四:保存為本地Sql文件(Insert語句)
這種方式是將採集的數據導出保存成Insert語句,可以用於在資料庫的管理工具中執行插入數據。
採集器不僅可以採集發布數據,還可以將採集下來的數據經過編輯以後再發布。支持批量替換,通過SQL語句批量處理以及在文本編輯框里編輯。