久久精品国产亚洲av成人_ Lucene研究之二—

Lucene研究之二——系統結構分析初步

作者：陳光（holen@263.net）

時(shí)間：2004-08-26

本文主要討論Lucene的系統結構，希望對其結構的初步分析，更深入的了解Lucene的運作機制，從而實(shí)現對Lucene的功能擴展。

1． Lucene的包結構

如上圖所示，Lucene源碼中共包括7個(gè)子包，每個(gè)包完成特定的功能：

Lucene包結構功能表

包名

功能

org.apache.lucene.analysis

語(yǔ)言分析器，主要用于的切詞，支持中文主要是擴展此類(lèi)

org.apache.lucene.document

索引存儲時(shí)的文檔結構管理，類(lèi)似于關(guān)系型數據庫的表結構

org.apache.lucene.index

索引管理，包括索引建立、刪除等

org.apache.lucene.queryParser

查詢(xún)分析器，實(shí)現查詢(xún)關(guān)鍵詞間的運算，如與、或、非等

org.apache.lucene.search

檢索管理，根據查詢(xún)條件，檢索得到結果

org.apache.lucene.store

數據存儲管理，主要包括一些底層的I/O操作

org.apache.lucene.util

一些公用類(lèi)

2． Lucene的主要邏輯圖

Lucene功能強大，但從根本上說(shuō)，主要包括兩塊：一是文本內容經(jīng)切詞后索引入庫；二是根據查詢(xún)條件返回結果。

以下是上述兩大功能的邏輯圖：

STORAGE

（存儲器）

ACCESS INDEX

（訪(fǎng)問(wèn)索引）

SERACHER

（查詢(xún)器）

ANALYZER

（語(yǔ)言分析器）

QUERY PARSER

（查詢(xún)分析器）

DOCUMENT

（文檔結構）

SEARCHER

（查詢(xún)）

INDEXER

（入庫）

BDD

RAM

Lucene功能邏輯圖

查詢(xún)邏輯

按先后順序，查詢(xún)邏輯可分為如下幾步：

1．查詢(xún)者輸入查詢(xún)條件

條件之間可以通過(guò)特定運算符進(jìn)行運算，比如查詢(xún)希望查詢(xún)到與“中國”和“北京”相關(guān)的記錄，但不希望結果中包括“海淀區中關(guān)村”，于是輸入條件為“中國+北京-海淀區中關(guān)村”；

2．查詢(xún)條件被傳達到查詢(xún)分析器中，分析器將將對“中國+北京-海淀區中關(guān)村”進(jìn)行分析，首先分析器解析字符串的連接符，即這里的加號和減號，然后對每個(gè)詞進(jìn)行切詞，一般最小的詞元是兩個(gè)漢字，則中國和北京兩個(gè)詞不必再切分，但對海淀區中關(guān)村需要切分，假設根據切詞算法，把該詞切分為“海淀區”和“中關(guān)村”兩部分，則最后得到的查詢(xún)條件可以表示為：“中國” AND “北京” AND NOT（“海淀區” AND “中關(guān)村”）。

3．查詢(xún)器根據這個(gè)條件遍歷索引樹(shù)，得到查詢(xún)結果，并返回結果集，返回的結果集類(lèi)似于JDBC中的ResultSet。

4．將返回的結果集顯示在查詢(xún)結果頁(yè)面，當點(diǎn)擊某一條內容時(shí)，可以鏈接到原始網(wǎng)頁(yè)，也可以打開(kāi)全文檢索庫中存儲的網(wǎng)頁(yè)內容。

這就是查詢(xún)的邏輯過(guò)程，需要說(shuō)明的是，Lucene默認只支持英文，為了便于說(shuō)明問(wèn)題，以上查詢(xún)過(guò)程采用中文舉例，事實(shí)上，當Lucene被擴充支持中文后就是這么一個(gè)查詢(xún)過(guò)程。

入庫邏輯

入庫將把內容加載到全文檢索庫中，按順序，入庫邏輯包括如下過(guò)程：

1．入庫者定義到庫中文檔的結構，比如需要把網(wǎng)站內容加載到全文檢索庫，讓用戶(hù)通過(guò)“站內檢索”搜索到相關(guān)的網(wǎng)頁(yè)內容。入庫文檔結構與關(guān)系型數據庫中的表結構類(lèi)似，每個(gè)入庫的文檔由多個(gè)字段構成，假設這里需要入庫的網(wǎng)站內容包括如下字段：文章標題、作者、發(fā)布時(shí)間、原文鏈接、正文內容（一般作為網(wǎng)頁(yè)快照）。

2．包含N個(gè)字段的文檔（DOCUMENT）在真正入庫前需要經(jīng)過(guò)切詞（或分詞）索引，切詞的規則由語(yǔ)言分析器（ANALYZER）完成。

3．切分后的“單詞”被注冊到索引樹(shù)上，供查詢(xún)時(shí)用，另外也需要也其它不需要索引的內容入庫，所有這些是文件操作均由STORAGE完成。

以上就是記錄加載流程，索引樹(shù)是一種比較復雜的數據存儲結構，將在后續章節陸續介紹，這里就不贅述了，需要說(shuō)明的一點(diǎn)是，Lucene的索引樹(shù)結構非常優(yōu)秀，是Lucene的一大特色。

接下來(lái)將對Lucene的各個(gè)子包的結構進(jìn)行討論。

3．語(yǔ)言分析包org.apache.lucene.analysis

Analyzer是一個(gè)抽象類(lèi)，司職對文本內容的切分詞規則。

切分后返回一個(gè)TokenStream，TokenStream中有一個(gè)非常重要方法next()，即取到下一個(gè)詞。簡(jiǎn)單點(diǎn)說(shuō)，通過(guò)切詞規則，把一篇文章從頭到尾分成一個(gè)個(gè)的詞，這就是org.apache.lucene.analysis的工作。

<p class=M

本站僅提供存儲服務(wù)，所有內容均由用戶(hù)發(fā)布，如發(fā)現有害或侵權內容，請點(diǎn)擊舉報。

欧美性猛交XXXX免费看蜜桃,成人网18免费韩国,亚洲国产成人精品区综合,欧美日韩一区二区三区高清不卡,亚洲综合一区二区精品久久