爬山虎采集器是一款數(shù)據(jù)采集軟件,可以幫助用戶自動采集網(wǎng)絡(luò)上的資源,將資源地址復(fù)制到軟件就可以按照步驟采集數(shù)據(jù),最后將采集的數(shù)據(jù)下載到電腦上保存使用,例如可以直接對京東商品列表采集,可以對京東商品評論采集,也可以采集新聞,支持采集博客園新聞、采集新浪新聞采集,讓用戶可以輕松獲取指定網(wǎng)站上的內(nèi)容,批量采集數(shù)據(jù)到電腦繼續(xù)使用,這款軟件使用還是比較簡單的,啟動軟件就可以新建采集任務(wù),輸入采集地址就可以按照步驟執(zhí)行下一步,操作過程還是很簡單的,按照引導(dǎo)步驟就可以執(zhí)行采集任務(wù),需要就下載吧!
1、使用點擊式界面,在幾分鐘內(nèi)從任何網(wǎng)站抓取數(shù)據(jù)。
2、適用于各種網(wǎng)站,能夠采集互聯(lián)網(wǎng)99%的網(wǎng)站,包括單頁應(yīng)用、Ajax加載等等動態(tài)類型網(wǎng)站
3、支持各種結(jié)構(gòu)的網(wǎng)頁數(shù)據(jù),并且保存到Txt、excel以及數(shù)據(jù)庫中。
4、它能夠采集互聯(lián)網(wǎng)上的大部分網(wǎng)站數(shù)據(jù),并且將數(shù)據(jù)導(dǎo)出為各種格式的文件或者數(shù)據(jù)庫,比如csv、excel、mysql、sqlserver、sqlite、access,甚至可以通過指定接口發(fā)布到你的網(wǎng)站。
5、快速高效,內(nèi)置一套高速瀏覽器內(nèi)核,加上HTTP引擎模式,實現(xiàn)快速采集數(shù)據(jù)
6、自動識別列表數(shù)據(jù),通過智能算法,一鍵提取數(shù)據(jù)。
7、自動識別分頁技術(shù),通過算法智能識別、采集分頁數(shù)據(jù)
8、混合瀏覽器引擎和HTTP引擎,兼顧了易用性和效率。
1、爬山虎采集器可以輕松采集網(wǎng)頁上的數(shù)據(jù),在軟件新建任務(wù)就可以開始采集
2、可以對多個站點內(nèi)容采集,直接在軟件輸入多個地址一次采集
3、支持查看采集的頁面,軟件自動讀取網(wǎng)頁上的內(nèi)容,將可采集的內(nèi)容顯示在列表
4、可以設(shè)置過濾方式,刪除不需要采集的內(nèi)容
5、大部分網(wǎng)站都可以采集。可以采集需要登錄的網(wǎng)站
6、支持多個頁面識別,如果你輸入的地址有多個頁面就可以自動識別分頁內(nèi)容
7、可以在軟件選擇對頁面上的圖像下載,可以選擇對數(shù)據(jù)處理
8、支持文本替換、正則匹配、清除HTML標簽、添加前后綴、字符轉(zhuǎn)碼、執(zhí)行JavaScript等數(shù)據(jù)處理功能
9、支持執(zhí)行C#代碼、正文提取、字符映射、HTTP請求等數(shù)據(jù)處理功能
10、支持過濾設(shè)置:修改名稱、刪除字段、選擇元素、添動加新元素、手動設(shè)置XPatl、設(shè)置取值屬性
11、支持文件下載、使用自定義值、增量更新、取值屬性、瀏覽器引擎和HTTP引|擎、POST請求等功能
12、支持自定義數(shù)據(jù)、批量生成起始網(wǎng)址、來集前執(zhí)行腳本、JSON數(shù)據(jù)來集
1、將爬山虎采集器直接安裝到電腦,等待軟件安裝結(jié)束
2、可以選擇簡易采集,可以選擇自定義采集
3、進入簡易采集界面,這里是軟件的其他功能界面,如果有需要就可以點擊使用
4、點擊新建任務(wù)就可以進入地址設(shè)置界面,將需要采集的地址輸入到軟件,點擊下一步
5、這里是數(shù)據(jù)抓取的界面,自動識別當(dāng)前的網(wǎng)頁內(nèi)容,如果識別到數(shù)據(jù)就在軟件底部列表顯示,點擊下一步
6、設(shè)置一些采集的參數(shù),支持瀏覽器設(shè)置,支持代理服務(wù)器設(shè)置,支持自動采集計劃任務(wù)設(shè)置
7、開始采集,軟件自動分區(qū)頁面上可以采集的數(shù)據(jù),等待采集結(jié)束就可以導(dǎo)出數(shù)據(jù)
8、淘寶商品搜索
按照輸入的關(guān)鍵詞,采集淘寶商品搜索的結(jié)果數(shù)據(jù)。包含商品標題、鏈接、價格、付款人數(shù)店鋪名稱、位置字段。
9、如果對軟件不了解可以點擊幫助文檔查看官方提供的教程,從而學(xué)習(xí)各種功能的操作方式
10、任務(wù)運行時不顯示窗口、任務(wù)完成之后關(guān)閉窗口、任務(wù)運行窗口最大化
任務(wù)并行數(shù)量15
網(wǎng)頁超時設(shè)置30(秒)
運行日志保存最近3(天)
11、記住軟件窗口大小
跳過已下載文件
支持https tls 1.2協(xié)議
文件下載線程數(shù):8
數(shù)據(jù)導(dǎo)出
爬山虎采集器支持多個格式的數(shù)據(jù)導(dǎo)出(發(fā)布),包括TXT、CSV、Excel、Access、MySQL、SQLServer、SQLite以及發(fā)布到網(wǎng)站接口(Api)。
導(dǎo)出方式有2種:
手動導(dǎo)出,通過右擊任務(wù)-> 導(dǎo)出任務(wù),或者是在查看數(shù)據(jù)中導(dǎo)出。
自動導(dǎo)出,在編輯任務(wù)的第三步中設(shè)置導(dǎo)出。
在數(shù)據(jù)導(dǎo)出后,會被標記為已導(dǎo)出,在下次導(dǎo)出時,不會再導(dǎo)出。 如果想要導(dǎo)出全部數(shù)據(jù),而不區(qū)分已導(dǎo)出,可以在查看數(shù)據(jù)中選擇導(dǎo)出全部。
導(dǎo)出到Excel、CSV、TXT
可以將數(shù)據(jù)導(dǎo)出到Excel、CSV、TXT文件中,每次導(dǎo)出將會生成新的文件。 軟件支持對導(dǎo)出的文件名設(shè)置變量,目前有2種格式變量,按照任務(wù)名和日期格式。
導(dǎo)出TXT目前支持一條記錄保存為一個文件。可以根據(jù)字段值來定義文件名稱,導(dǎo)出的內(nèi)容格式也可以自定義模板
網(wǎng)友評論