Heritrix is the Internet Archive‘s open-source, extensible, web-scale, archival-quality web crawler project.
沒(méi)想到過(guò)了一會(huì )兒,在郵件列表中居然看到了 Gordon Mohr 的發(fā)言??磥?lái)他也比較關(guān)心 Nutch 的發(fā)展。
我對 Mohr 的發(fā)言整理一下。主要有以下幾點(diǎn):
主要目的不同。 Heritrix 是個(gè) "archival crawler" -- 用來(lái)獲取完整的、精確的、站點(diǎn)內容的深度復制。包括獲取圖像以及其他非文本內容。抓取并存儲相關(guān)的內容。對內容來(lái)者不拒,不對頁(yè)面進(jìn)行內容上的修改。重新爬行對相同的URL不針對先前的進(jìn)行替換。爬蟲(chóng)通過(guò)Web用戶(hù)界面啟動(dòng)、監控、調整,允許彈性的定義要獲取的URL。
二者的差異:
暫時(shí)還沒(méi)有看到 Doug Cutting 對二者比較的評價(jià).
Heritrix 的架構示意圖:

Nutch 的架構示意圖:

聯(lián)系客服