摘要:
Lucene是一個(gè)基于Java的全文索引工具包。
基于Java的全文索引引擎Lucene簡(jiǎn)介:關(guān)于作者和Lucene的歷史
全文檢索的實(shí)現:Luene全文索引和數據庫索引的比較
中文切分詞機制簡(jiǎn)介:基于詞庫和自動(dòng)切分詞算法的比較
具體的安裝和使用簡(jiǎn)介:系統結構介紹和演示
Hacking Lucene:簡(jiǎn)化的查詢(xún)分析器,刪除的實(shí)現,定制的排序,應用接口的擴展
從Lucene我們還可以學(xué)到什么
安裝和使用
下載:http://jakarta.apache.org/lucene/
注意:Lucene中的一些比較復雜的詞法分析是用JavaCC生成的(JavaCC:JavaCompilerCompiler,純Java的詞法分析生成器),所以如果從源代碼編譯或需要修改其中的QueryParser、定制自己的詞法分析器,還需要從https://javacc.dev.java.net/下載javacc。
lucene的組成結構:對于外部應用來(lái)說(shuō)索引模塊(index)和檢索模塊(search)是主要的外部應用入
org.apache.Lucene.search/ 搜索入口
org.apache.Lucene.index/ 索引入口
org.apache.Lucene.analysis/ 語(yǔ)言分析器
org.apache.Lucene.queryParser/ 查詢(xún)分析器
org.apache.Lucene.document/ 存儲結構
org.apache.Lucene.store/ 底層IO/存儲結構
org.apache.Lucene.util/ 一些公用的數據結構
參考資料:
Apache: Lucene Project
http://jakarta.apache.org/lucene/
Lucene開(kāi)發(fā)/用戶(hù)郵件列表歸檔
Lucene-dev@jakarta.apache.org
Lucene-user@jakarta.apache.org
The Lucene search engine: Powerful, flexible, and free
http://www.javaworld.com/javaworld/jw-09-2000/jw-0915-Lucene_p.html
Lucene Tutorial
http://www.darksleep.com/puff/lucene/lucene.html
Notes on distributed searching with Lucene
http://home.clara.net/markharwood/lucene/
中文語(yǔ)言的切分詞
http://www.google.com/search?sourceid=navclient&hl=zh-CN&q=chinese+word+segment
搜索引擎工具介紹
http://searchtools.com/
Lucene作者Cutting的幾篇論文和專(zhuān)利
http://lucene.sourceforge.net/publications.html
Lucene的.NET實(shí)現:dotLucene
http://sourceforge.net/projects/dotlucene/
Lucene作者Cutting的另外一個(gè)項目:基于Java的搜索引擎Nutch
http://www.nutch.org/ http://sourceforge.net/projects/nutch/
關(guān)于基于詞表和N-Gram的切分詞比較
http://china.nikkeibp.co.jp/cgi-bin/china/news/int/int200302100112.html
2005-01-08 Cutting在Pisa大學(xué)做的關(guān)于Lucene的講座:非常詳細的Lucene架構解說(shuō)
作者: 車(chē)東 Email: chedongATbigfoot.com/chedongATchedong.com
寫(xiě)于:2002/08 最后更新: 03/16/2005 16:27:52
原始出處和作者信息及聲明:http://www.chedong.com/tech/lucene.html

