開(kāi)發(fā)語(yǔ)言
軟件名稱(chēng)
軟件介紹
許可證
Java
Arachnid
微型爬蟲(chóng)框架,含有一個(gè)小型HTML解析器
GPL
crawlzilla
安裝簡(jiǎn)易,擁有中文分詞功能
Apache2
Ex-Crawler
由守護進(jìn)程執行,使用數據庫存儲網(wǎng)頁(yè)信息
GPLv3
Heritrix
嚴格遵照robots文件的排除指示和META robots標簽
LGPL
heyDr
輕量級開(kāi)源多線(xiàn)程垂直檢索爬蟲(chóng)框架
GPLv3
ItSucks
提供swing GUI操作界面
不詳
jcrawl
輕量、性能優(yōu)良,可以從網(wǎng)頁(yè)抓取各種類(lèi)型的文件
Apache
JSpider
功能強大,容易擴展
LGPL
Leopdo
包括全文和分類(lèi)垂直搜索,以及分詞系統
Apache
MetaSeeker
網(wǎng)頁(yè)抓取、信息提取、數據抽取工具包,操作簡(jiǎn)單
不詳
Playfish
通過(guò)XML配置文件實(shí)現高度可定制性與可擴展性
MIT
Spiderman
靈活、擴展性強,微內核+插件式架構,通過(guò)簡(jiǎn)單的配置就可以完成數據抓取,無(wú)需編寫(xiě)一句代碼
Apache
webmagic
功能覆蓋整個(gè)爬蟲(chóng)生命周期,使用Xpath和正則表達式進(jìn)行鏈接和內容的提取
Apache
Web-Harvest
運用XSLT、XQuery、正則表達式等技術(shù)來(lái)實(shí)現對Text或XML的操作,具有可視化的界面
BSD
WebSPHINX
由兩部分組成:爬蟲(chóng)工作平臺和WebSPHINX類(lèi)包
Apache
YaCy
基于P2P的分布式Web搜索引擎
GPL
Python
QuickRecon
具有查找子域名名稱(chēng)、收集電子郵件地址并尋找人際關(guān)系等功能
GPLv3
PyRailgun
簡(jiǎn)潔、輕量、高效的網(wǎng)頁(yè)抓取框架
MIT
Scrapy
基于Twisted的異步處理框架,文檔齊全
BSD
C++
hispider
支持多機分布式下載, 支持網(wǎng)站定向下載
BSD
larbin
高性能的爬蟲(chóng)軟件,只負責抓取不負責解析
GPL
Methabot
經(jīng)過(guò)速度優(yōu)化、可抓取WEB、FTP及本地文件系統
不詳
Methanol
模塊化、可定制的網(wǎng)頁(yè)爬蟲(chóng),速度快
不詳
C#
NWebCrawler
統計信息、執行過(guò)程可視化
GPLv2
Sinawler
國內第一個(gè)針對微博數據的爬蟲(chóng)程序,功能強大
GPLv3
spidernet
以遞歸樹(shù)為模型的多線(xiàn)程web爬蟲(chóng)程序,支持以GBK (gb2312)和utf8編碼的資源,使用sqlite存儲數據
MIT
Web Crawler
多線(xiàn)程,支持抓取PDF/DOC/EXCEL等文檔來(lái)源
LGPL
網(wǎng)絡(luò )礦工
功能豐富,毫不遜色于商業(yè)軟件
BSD
PHP
OpenWebSpider
開(kāi)源多線(xiàn)程網(wǎng)絡(luò )爬蟲(chóng),有許多有趣的功能
不詳
PhpDig
適用于專(zhuān)業(yè)化強、層次更深的個(gè)性化搜索引擎
GPL
Snoopy
具有采集網(wǎng)頁(yè)內容、提交表單功能
GPL
ThinkUp
采集推特、臉譜等社交網(wǎng)絡(luò )數據的社會(huì )媒體視角引擎,可進(jìn)行交互分析并將結果以可視化形式展現
GPL
微購
可采集淘寶、京東、當當等300多家電子商務(wù)數據
GPL
ErLang
Ebot
可伸縮的分布式網(wǎng)頁(yè)爬蟲(chóng)
GPLv3
Ruby
Spidr
可將一個(gè)或多個(gè)網(wǎng)站、某個(gè)鏈接完全抓取到本地
MIT
開(kāi)發(fā)語(yǔ)言
軟件名稱(chēng)
軟件介紹
許可證
Java
Arachnid
微型爬蟲(chóng)框架,含有一個(gè)小型HTML解析器
GPL
crawlzilla
安裝簡(jiǎn)易,擁有中文分詞功能
Apache2
Ex-Crawler
由守護進(jìn)程執行,使用數據庫存儲網(wǎng)頁(yè)信息
GPLv3
Heritrix
嚴格遵照robots文件的排除指示和META robots標簽
LGPL
heyDr
輕量級開(kāi)源多線(xiàn)程垂直檢索爬蟲(chóng)框架
GPLv3
ItSucks
提供swing GUI操作界面
不詳
jcrawl
輕量、性能優(yōu)良,可以從網(wǎng)頁(yè)抓取各種類(lèi)型的文件
Apache
JSpider
功能強大,容易擴展
LGPL
Leopdo
包括全文和分類(lèi)垂直搜索,以及分詞系統
Apache
MetaSeeker
網(wǎng)頁(yè)抓取、信息提取、數據抽取工具包,操作簡(jiǎn)單
不詳
Playfish
通過(guò)XML配置文件實(shí)現高度可定制性與可擴展性
MIT
Spiderman
靈活、擴展性強,微內核+插件式架構,通過(guò)簡(jiǎn)單的配置就可以完成數據抓取,無(wú)需編寫(xiě)一句代碼
Apache
webmagic
功能覆蓋整個(gè)爬蟲(chóng)生命周期,使用Xpath和正則表達式進(jìn)行鏈接和內容的提取
Apache
Web-Harvest
運用XSLT、XQuery、正則表達式等技術(shù)來(lái)實(shí)現對Text或XML的操作,具有可視化的界面
BSD
WebSPHINX
由兩部分組成:爬蟲(chóng)工作平臺和WebSPHINX類(lèi)包
Apache
YaCy
基于P2P的分布式Web搜索引擎
GPL
Python
QuickRecon
具有查找子域名名稱(chēng)、收集電子郵件地址并尋找人際關(guān)系等功能
GPLv3
PyRailgun
簡(jiǎn)潔、輕量、高效的網(wǎng)頁(yè)抓取框架
MIT
Scrapy
基于Twisted的異步處理框架,文檔齊全
BSD
C++
hispider
支持多機分布式下載, 支持網(wǎng)站定向下載
BSD
larbin
高性能的爬蟲(chóng)軟件,只負責抓取不負責解析
GPL
Methabot
經(jīng)過(guò)速度優(yōu)化、可抓取WEB、FTP及本地文件系統
不詳
Methanol
模塊化、可定制的網(wǎng)頁(yè)爬蟲(chóng),速度快
不詳
C#
NWebCrawler
統計信息、執行過(guò)程可視化
GPLv2
Sinawler
國內第一個(gè)針對微博數據的爬蟲(chóng)程序,功能強大
GPLv3
spidernet
以遞歸樹(shù)為模型的多線(xiàn)程web爬蟲(chóng)程序,支持以GBK (gb2312)和utf8編碼的資源,使用sqlite存儲數據
MIT
Web Crawler
多線(xiàn)程,支持抓取PDF/DOC/EXCEL等文檔來(lái)源
LGPL
網(wǎng)絡(luò )礦工
功能豐富,毫不遜色于商業(yè)軟件
BSD
PHP
OpenWebSpider
開(kāi)源多線(xiàn)程網(wǎng)絡(luò )爬蟲(chóng),有許多有趣的功能
不詳
PhpDig
適用于專(zhuān)業(yè)化強、層次更深的個(gè)性化搜索引擎
GPL
Snoopy
具有采集網(wǎng)頁(yè)內容、提交表單功能
GPL
ThinkUp
采集推特、臉譜等社交網(wǎng)絡(luò )數據的社會(huì )媒體視角引擎,可進(jìn)行交互分析并將結果以可視化形式展現
GPL
微購
可采集淘寶、京東、當當等300多家電子商務(wù)數據
GPL
ErLang
Ebot
可伸縮的分布式網(wǎng)頁(yè)爬蟲(chóng)
GPLv3
Ruby
Spidr
可將一個(gè)或多個(gè)網(wǎng)站、某個(gè)鏈接完全抓取到本地
MIT
聯(lián)系客服