欧美性猛交XXXX免费看蜜桃,成人网18免费韩国,亚洲国产成人精品区综合,欧美日韩一区二区三区高清不卡,亚洲综合一区二区精品久久

打開(kāi)APP
userphoto
未登錄

開(kāi)通VIP,暢享免費電子書(shū)等14項超值服

開(kāi)通VIP
Heritrix3.x自定義擴展Extractor

一、引言:

  Heritrix3.x與Heritrix1.x版本差異比較大,全新配置模式的引入+擴展接口的變化,同時(shí)由于說(shuō)明文檔的匱乏,給Heritrix的開(kāi)發(fā)者帶來(lái)困惑,前面的文章已經(jīng)就Heritrix的配置部署和運行做了說(shuō)明,本文就Heritrix3.x版本就Extractor擴展做出實(shí)例說(shuō)明。

二、配置說(shuō)明

  Heritrix3.x的WebUI發(fā)生了變化,不在是原來(lái)那種WebUI選擇模式,而是變成了在線(xiàn)配置文件直接編輯模式。在這里自定義的Extractor要想加入Heritrix運行,首先需要修改配置文件,降自定義擴展的Extractor加入到Heritrix的Processor隊列。完整配置文件如下所示:

  2.1 配置文件

205  <!-- FETCH CHAIN --> 206  <!-- processors declared as named beans -->207  <bean id="preselector" class="org.archive.crawler.prefetch.Preselector">212  </bean>213  <bean id="preconditions" class="org.archive.crawler.prefetch.PreconditionEnforcer">217  </bean>218  <bean id="fetchDns" class="org.archive.modules.fetcher.FetchDNS">222  </bean>223  <bean id="fetchHttp" class="org.archive.modules.fetcher.FetchHTTP">249  </bean>250  <bean id="extractorHttp" class="org.archive.modules.extractor.ExtractorHTTP">251  </bean>
-------------------------------自定義Extractor------------------------------------
252 <bean id="SohuNewsExtractor" class="my.SohuNewsExtractor">253 </bean>
---------------------------------------------------------------------------------
254 <bean id="extractorHtml" class="org.archive.modules.extractor.ExtractorHTML">264 </bean>265 <bean id="extractorCss" class="org.archive.modules.extractor.ExtractorCSS">266 </bean> 267 <bean id="extractorJs" class="org.archive.modules.extractor.ExtractorJS">268 </bean>269 <bean id="extractorSwf" class="org.archive.modules.extractor.ExtractorSWF">270 </bean> 271 <!-- assembled into ordered FetchChain bean -->272 <bean id="fetchProcessors" class="org.archive.modules.FetchChain">273 <property name="processors">274 <list>275 <!-- recheck scope, if so enabled... -->276 <ref bean="preselector"/>277 <!-- ...then verify or trigger prerequisite URIs fetched, allow crawling... -->278 <ref bean="preconditions"/>279 <!-- ...fetch if DNS URI... -->280 <ref bean="fetchDns"/>281 <!-- ...fetch if HTTP URI... -->282 <ref bean="fetchHttp"/>283 <!-- ...extract oulinks from HTTP headers... -->284 <ref bean="extractorHttp"/>

----------------------------自定義Extractor----------------------------------------------
285 <!-- ...extract oulinks from HTTP content... -->286 <ref bean="SohuNewsExtractor"/>
---------------------------------------------------------------------------------------
287 <!-- ...extract oulinks from HTML content... -->288 <ref bean="extractorHtml"/>289 <!-- ...extract oulinks from CSS content... -->290 <ref bean="extractorCss"/>291 <!-- ...extract oulinks from Javascript content... -->292 <ref bean="extractorJs"/>293 <!-- ...extract oulinks from Flash content... -->294 <ref bean="extractorSwf"/>295 </list>296 </property>297 </bean>298

  2.2 添加Bean和配置調度列表

250  <bean id="extractorHttp" class="org.archive.modules.extractor.ExtractorHTTP">251  </bean>
-------------------------------自定義Extractor------------------------------------
252 <bean id="SohuNewsExtractor" class="my.SohuNewsExtractor">253 </bean>
---------------------------------------------------------------------------------
...
----------------------------自定義Extractor---------------------------------------
285 <!-- ...extract oulinks from HTTP content... -->286 <ref bean="SohuNewsExtractor"/>
---------------------------------------------------------------------------------
配置完成以上部分,既可以實(shí)現自定義Extractor參與Processor任務(wù)處理的調度。

 三、程序說(shuō)明

  3.1 Extractor基類(lèi)

  Extractor基類(lèi)發(fā)生了變化,新增了新的接口方法:

1     @Override2     protected boolean shouldProcess(CrawlURI uri) {3         // TODO Auto-generated method stub4         return false;5     }

  如果不實(shí)現此方法,自定義擴展的Extractor的函數void extract(CrawlURI uri)將不會(huì )被調度。

  3.2 構造函數

  1.x版本的構造函數如下:  

    public Extractor(String name, String description) {        super(name, description);        // TODO Auto-generated constructor stub    }

  3.x版本的構造函數取消了參數,采用的默認構造函數。

四、遺留問(wèn)題

   protected void extract(CrawlURI curi)

  {

  //1. 做哪些處理?

  //2. 如何控制后續的下載行為,要求只下載自己想要的內容

  }

本站僅提供存儲服務(wù),所有內容均由用戶(hù)發(fā)布,如發(fā)現有害或侵權內容,請點(diǎn)擊舉報。
打開(kāi)APP,閱讀全文并永久保存 查看更多類(lèi)似文章
猜你喜歡
類(lèi)似文章
統計URL的出度和入度 crawl.log 鏈接關(guān)系 Heritrix
scrapy之CrawlSpiders
干貨 | 樂(lè )思信息采集系統與開(kāi)源爬蟲(chóng)軟件相實(shí)用性比較
spring security3 自定義過(guò)濾鏈
Spring Security教程(8)
使用SpringSecurity3用戶(hù)驗證幾點(diǎn)體會(huì )(異常信息,驗證碼)
更多類(lèi)似文章 >>
生活服務(wù)
分享 收藏 導長(cháng)圖 關(guān)注 下載文章
綁定賬號成功
后續可登錄賬號暢享VIP特權!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服

欧美性猛交XXXX免费看蜜桃,成人网18免费韩国,亚洲国产成人精品区综合,欧美日韩一区二区三区高清不卡,亚洲综合一区二区精品久久