一区二区三区四区欧美精品久久_ 未知都是已知的: Heritrix Crawler vs. Nutch Crawler

在郵件列表中看到有人問(wèn) Heritrix 爬蟲(chóng)與 Nutch 爬蟲(chóng)的不同。搜索了一下，該項目的領(lǐng)導者是 Gordon Mohr ，Heritrix 主要用在 http://www. ?；径x描述：

Heritrix is the Internet Archive‘s open-source, extensible, web-scale, archival-quality web crawler project.

沒(méi)想到過(guò)了一會(huì )兒，在郵件列表中居然看到了 Gordon Mohr 的發(fā)言?？磥?lái)他也比較關(guān)心 Nutch 的發(fā)展。

我對 Mohr 的發(fā)言整理一下。主要有以下幾點(diǎn):

主要目的不同。 Heritrix 是個(gè) "archival crawler" -- 用來(lái)獲取完整的、精確的、站點(diǎn)內容的深度復制。包括獲取圖像以及其他非文本內容。抓取并存儲相關(guān)的內容。對內容來(lái)者不拒，不對頁(yè)面進(jìn)行內容上的修改。重新爬行對相同的URL不針對先前的進(jìn)行替換。爬蟲(chóng)通過(guò)Web用戶(hù)界面啟動(dòng)、監控、調整，允許彈性的定義要獲取的URL。

二者的差異：

Nutch 只獲取并保存可索引的內容。Heritrix則是照單全收。力求保存頁(yè)面原貌
Nutch 可以修剪內容，或者對內容格式進(jìn)行轉換。
Nutch 保存內容為數據庫優(yōu)化格式便于以后索引；刷新替換舊的內容。而Heritrix 是添加(追加)新的內容。
Nutch 從命令行運行、控制。Heritrix 有 Web 控制管理界面。
Nutch 的定制能力不夠強，不過(guò)現在已經(jīng)有了一定改進(jìn)。Heritrix 可控制的參數更多。

暫時(shí)還沒(méi)有看到 Doug Cutting 對二者比較的評價(jià)．

Heritrix 的架構示意圖：

Nutch 的架構示意圖：

本站僅提供存儲服務(wù)，所有內容均由用戶(hù)發(fā)布，如發(fā)現有害或侵權內容，請點(diǎn)擊舉報。

欧美性猛交XXXX免费看蜜桃,成人网18免费韩国,亚洲国产成人精品区综合,欧美日韩一区二区三区高清不卡,亚洲综合一区二区精品久久

在郵件列表中看到有人問(wèn) Heritrix 爬蟲(chóng)與 Nutch 爬蟲(chóng)的不同。搜索了一下，該項目的領(lǐng)導者是 Gordon Mohr ，Heritrix 主要用在 http://www. ?；径x描述：

在郵件列表中看到有人問(wèn) Heritrix 爬蟲(chóng)與 Nutch 爬蟲(chóng)的不同。搜索了一下，該項目的領(lǐng)導者是 Gordon Mohr ，Heritrix 主要用在 http://www. ?；径x描述：