欧美性猛交XXXX免费看蜜桃,成人网18免费韩国,亚洲国产成人精品区综合,欧美日韩一区二区三区高清不卡,亚洲综合一区二区精品久久

打開(kāi)APP
userphoto
未登錄

開(kāi)通VIP,暢享免費電子書(shū)等14項超值服

開(kāi)通VIP
淺入淺出nutch 0.8使用指南

Nutch 是一個(gè)搜索引擎,昨天剛從一個(gè)朋友那里知道,前一陣子接觸了 lucene ,對搜索的東西躍躍欲試,趁著(zhù)周末試用了一把,感覺(jué)蠻新鮮,網(wǎng)上的例子多是基于 0.7 版本的,找到了一些 0.8 的就是跑不起來(lái),忽悠忽悠試了半天,寫(xiě)下一點(diǎn)感覺(jué) ~~

 

系統環(huán)境: Tomcat 5.0.12/JDK1.5/nutch0.8.1/cygwin-cd-release-20060906.iso

使用過(guò)程:

 

1. 因為 nutch 的運行需要 unix 環(huán)境,所以對于 windows 用戶(hù),要先下載一個(gè) cygwin ,它是一個(gè)自由軟件,可在 windows 下模擬 unix 環(huán)境,你可以到 http://www.cygwin.com/ 下載在線(xiàn)安裝程序,也可以到 http://www-inst.eecs.berkeley.edu/~instcd/iso/ 下載完整安裝程序(我下下來(lái)有 1.27G ,呵呵,要保證硬盤(pán)空間足夠大 ~~ ),安裝時(shí)一路 next 即可 ~~~

2. 下載 nutch0.8.1 ,下載地址 http://apache.justdn.org/lucene/nutch/ ,我下載后是解壓到 D:\ nutch-0.8.1

3. nutch-0.8.1 新建文件夾 urls ,在 urls 建一文本文件,文件名任意,添加一行內容: http://lucene.apache.org/nutch ,這是要搜索的網(wǎng)址

4. 打開(kāi) nutch-0.8.1 下的 conf ,找到 crawl-urlfilter.txt ,找到這兩行

# accept hosts in MY.DOMAIN.NAME

+^http://([a-z0-9]*\.)*MY.DOMAIN.NAME/

紅色部分 是一個(gè)正則,你要搜索的網(wǎng)址要與其匹配,在這里我改為 +^http://([a-z0-9]*\.)*apache.org/

5. OK ,下面開(kāi)始對搜索網(wǎng)址建立索引,運行 cygwin ,會(huì )打開(kāi)一個(gè)命令窗口,輸入 cd cygdrive/d/ nutch-0.8.1 ,轉到 nutch-0.8.1 目錄

 

6. 執行 bin/nutch crawl urls -dir crawled-depth 2 -threads 5 >& crawl.log

參數意義如下(來(lái)自 apache 網(wǎng)站 http://lucene.apache.org/nutch/tutorial8.html ):

-dir dir names the directory to put the crawl in.

-threads threads determines the number of threads that will fetch in parallel.

-depth depth indicates the link depth from the root page that should be crawled.

-topN N determines the maximum number of pages that will be retrieved at each level up to the depth.

crawl.log 日志文件

 

執行后可以看到 nutch-0.8.1 下新增一個(gè) crawled 文件夾,它下面有 5 個(gè)文件夾:

/ crawldb/ linkdb web link 目錄,存放 url url 的互聯(lián)關(guān)系,作為爬行與重新爬行的依據,頁(yè)面默認 30 天過(guò)期 (可以在 nutch-site.xml 中配置,后面會(huì )提到)

 

segments 一存放抓取的頁(yè)面,與上面鏈接深度 depth 相關(guān), depth 設為 2 則在 segments 下生成兩個(gè)以時(shí)間命名的子文件夾,比如 ” 20061014163012” ,打開(kāi)此文件夾可以看到,它下面還有 6 個(gè)子文件夾,分別是(來(lái)自 apache 網(wǎng)站 http://lucene.apache.org/nutch/tutorial8.html ):

crawl_generate names a set of urls to be fetched

crawl_fetch contains the status of fetching each url

content contains the content of each url

parse_text contains the parsed text of each url

parse_data contains outlinks and metadata parsed from each url

crawl_parse contains the outlink urls, used to update the crawldb

 

indexes 索引目錄,我運行時(shí)生成了一個(gè) part-00000” 的文件夾,

index lucene 的索引目錄( nutch 是基于 lucene ,在 nutch-0.8.1\lib 下可以看到 lucene-core-1.9.1.jar ,最后有 luke 工具的簡(jiǎn)單使用方法 ),是 indexs 里所有 index 合并后的完整索引,注意索引文件只對頁(yè)面內容進(jìn)行索引,沒(méi)有進(jìn)行存儲,因此查詢(xún)時(shí)要去訪(fǎng)問(wèn) segments 目錄才能獲得頁(yè)面內容

 

7. 進(jìn)行簡(jiǎn)單測試,在 cygwin 中輸入 bin/nutch org.apache.nutch.searcher.NutchBean apache ,即調用 NutchBean main 方法搜索關(guān)鍵字 ”apache” ,在 cygwin 可以看到搜索出: Total hits: 29 hits 相當于 JDBC results

注意: 如果發(fā)現搜索結果始終為 0 ,則需要配置一下 nutch-0.8.1 \conf nutch-site.xml ,配置內容和下面過(guò)程 9 的配置相同 ( 另外,過(guò)程 6 depth 如果設為 1 也可能造成搜索結果為 0) ,然后重新執行過(guò)程 6

8. 下面我們要在 Tomcat 下進(jìn)行測試, nutch-0.8.1 下面有 nutch-0.8.1.war ,拷貝到 Tomcat\webapps 下,可以直接用 winrar 解壓到此目錄下,我是用 Tomcat 啟動(dòng)后解壓的,解壓文件夾名為: nutch

 

9. 打開(kāi) nutch\WEB-INF\classes nutch-site.xml 文件,下面紅色為需要新增的內容,其他為原 nutch-site.xml 內容

 

<?xml version="1.0"?>

<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<!-- Put site-specific property overrides in this file. -->

<configuration>

<!-- HTTP properties -->

 

<property>

  <name>http.agent.name</name>

  <value>*</value>

  <description></description>

</property>

 

<!-- file properties -->

 

<property>

  <name>searcher.dir</name>

  <value>D:\nutch-0.8.1\crawled</value>

  <description></description>

</property>

</configuration>

 

http.agent.name 必須,如果去掉這個(gè) property 查詢(xún)結果始終為 0

searcher.dir :指定前面在 cygwin 中生成的 crawled 路徑

 

其中我們還可以設置重新爬行時(shí)間(在過(guò)程 6 提到:頁(yè)面默認 30 天過(guò)期

<property>

 <name>fetcher.max.crawl.delay</name>

 <value>30</value>

 <description></description>

</property>

另外還有很多參數可以在 nutch-0.8.1\conf 下的 nutch-default.xml 查詢(xún), nutch-default.xml 中的 property 配置都帶有注釋?zhuān)信d趣的可以分別拷貝到 Tomcat\webapps\nutch\WEB-INF\classes\nutch-site.xml 中進(jìn)行調試

 

10.             打開(kāi) http://localhost:8081/nutch ,輸入 ”apache” ,可以看到 共有 29 項查詢(xún)結果 ,和上面在過(guò)程 7 進(jìn)行簡(jiǎn)單測試的結果一致

 

Luke 介紹:

Luke 是查詢(xún) lucene 索引文件的圖形化工具,可以比較直觀(guān)的看到索引創(chuàng )建情況,它需要結合 lucene 包一起用

使用過(guò)程:

1. 下載地址 http://www.getopt.org/luke 它提供 3 種下載:

standalone full JAR lukeall.jar

standalone minimal JAR lukemin.jar

separate JARs luke.jar (~113kB)

lucene-1.9-rc1-dev.jar (~380kB)

analyzers-dev.jar (~348kB)

snowball-1.1-dev.jar (~88kB)

js.jar (~492kB)

我們只需下載 ”separate JARs” luke.jar 即可

 

2. 下載后新建一個(gè)文件夾,比如叫 ”luke_run” ,把 luke.jar 放在文件夾下,同時(shí)從 nutch-0.8.1\lib 下拷貝 lucene-core-1.9.1.jar 到此文件夾下

3. cmd 命令行中轉到 ”luke_run” 目錄,輸入 java -classpath luke.jar;lucene-core-1.9.1.jar org.getopt.luke.Luke ,可以看到打開(kāi) luke 圖形界面,從 ”File”==>”Open Lucene index” ,打開(kāi) nutch-0.8.1\crawled\index 文件夾(在上面過(guò)程 6 已創(chuàng )建),然后可以在 luke 中看到索引創(chuàng )建的詳細信息

 

4. 附上一點(diǎn)閑言:)使用中發(fā)現一個(gè)問(wèn)題( lucene-core-1.9.1.jar 中不存在,所以 luke 不會(huì )拋此 Exception ),就是 ”Documents” ”Reconstruct&Edit” 按鈕只要一點(diǎn),就會(huì )拋一個(gè) Exception

Exception in thread "Thread-12" java.lang.NoSuchMethodError: org.apache.lucene.d

ocument.Field.<init>(Ljava/lang/String;Ljava/lang/String;ZZZZ)V

        at org.getopt.luke.Luke$2.run(Unknown Source)

呵呵,我用的是 lucene-core-2.0.0.jar ,看起來(lái)應該是在這個(gè)版本中去掉了某個(gè)方法造成的 ,很多時(shí)候新版本的出現總是會(huì )帶來(lái)一些細節問(wèn)題 ~~~~~

本站僅提供存儲服務(wù),所有內容均由用戶(hù)發(fā)布,如發(fā)現有害或侵權內容,請點(diǎn)擊舉報。
打開(kāi)APP,閱讀全文并永久保存 查看更多類(lèi)似文章
猜你喜歡
類(lèi)似文章
Nutch version 0.8.x tutorial
用Netbeans進(jìn)行開(kāi)源搜索引擎Nutch的開(kāi)發(fā)
讓Nutch支持中文分詞
分析Nutch的工作流程_守護地下鐵
從lucene的文件結構看它的性能
在 Windows 平臺下部署 Hadoop 開(kāi)發(fā)環(huán)境 - savechina的專(zhuān)欄 - ...
更多類(lèi)似文章 >>
生活服務(wù)
分享 收藏 導長(cháng)圖 關(guān)注 下載文章
綁定賬號成功
后續可登錄賬號暢享VIP特權!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服

欧美性猛交XXXX免费看蜜桃,成人网18免费韩国,亚洲国产成人精品区综合,欧美日韩一区二区三区高清不卡,亚洲综合一区二区精品久久