欧美性猛交XXXX免费看蜜桃,成人网18免费韩国,亚洲国产成人精品区综合,欧美日韩一区二区三区高清不卡,亚洲综合一区二区精品久久

打開(kāi)APP
userphoto
未登錄

開(kāi)通VIP,暢享免費電子書(shū)等14項超值服

開(kāi)通VIP
給Lucene增加中文分詞

一、分詞功能介紹

分詞模塊對于搜索的重要性不言而喻。例如,沒(méi)有分詞時(shí),搜索“和服”會(huì )出現“產(chǎn)品和服務(wù)”,搜索“海爾”會(huì )出現“海爾德”,搜索“華為”會(huì )出現“清華為何”。所以有必要給文本增加詞的邊界信息以提高檢索精確度。

       獵兔全球首家推出支持Lucene的準確可用的中文分詞模塊。

二、執行方法

       可以在命令行執行分詞測試:

>java "-Ddic.dir=D:/lg/work/SSeg/Dic" -classpath D:\JAVA\lib\lucene-1.4.jar;D:\JAVA\lib\seg.jar test.seg.result.CnTokenizer

       其中系統參數dic.dir指定數據文件路徑,如:

"-Ddic.dir=D:/lg/work/SSeg/Dic"

       或者編寫(xiě)一個(gè)用于測試的Jsp頁(yè)面。

三、調用接口

seg.result.CnTokenizer,該類(lèi)繼承org.apache.lucene.analysis.Tokenizer。

一個(gè)簡(jiǎn)單的使用例子是:

import java.io.Reader;

import java.util.Set;

import org.apache.lucene.analysis.Analyzer;

import org.apache.lucene.analysis.LowerCaseFilter;

import org.apache.lucene.analysis.StopFilter;

import org.apache.lucene.analysis.TokenStream;

/**

 * @author luogang

 *

 */

public class CnAnalyzer extends Analyzer {

       //~ Static fields/initializers ---------------------------------------------

       /**

        * An array containing some Chinese words that are not usually

        * useful for searching.

        */

       private static String[] stopWords = {

              "www","","","","時(shí)","",

              "","","","","","",

              "","會(huì )","","","","過(guò)",

              ""};

       //~ Instance fields --------------------------------------------------------

       /** stop word list */

       private Set stopSet;

       //~ Constructors -----------------------------------------------------------

       /**

        * Builds an analyzer which removes words in STOP_WORDS.

        */

       public CnAnalyzer() {

              stopSet = StopFilter.makeStopSet(stopWords);

       }

       /**

        * Builds an analyzer which removes words in the provided array.

        *

        * @param stopWords stop word array

        */

       public CnAnalyzer(String[] stopWords) {

              stopSet = StopFilter.makeStopSet(stopWords);

       }

       //~ Methods ----------------------------------------------------------------

       /**

        * get token stream from input

        *

        * @param fieldName lucene field name

        * @param reader input reader

        *

        * @return TokenStream

        */

       public final TokenStream tokenStream(String fieldName, Reader reader) {

             //注意:這里的CnTokenizer是獵兔自己開(kāi)發(fā)的,非free的

              TokenStream result = new CnTokenizer(reader);

              return new StopFilter(result, stopSet);

       }

      

}

四、輸出結果介紹

輸出結果中的詞性標注代碼說(shuō)明如下:

代碼

名稱(chēng)

幫助記憶的詮釋

Ag

形語(yǔ)素

形容詞性語(yǔ)素。形容詞代碼為a,語(yǔ)素代碼g前面置以A。

a

形容詞

取英語(yǔ)形容詞adjective的第1個(gè)字母。

ad

副形詞

直接作狀語(yǔ)的形容詞。形容詞代碼a和副詞代碼d并在一起。

an

名形詞

具有名詞功能的形容詞。形容詞代碼a和名詞代碼n并在一起。

b

區別詞

取漢字“別”的聲母。

c

連詞

取英語(yǔ)連詞conjunction的第1個(gè)字母。

Dg

副語(yǔ)素

副詞性語(yǔ)素。副詞代碼為d,語(yǔ)素代碼g前面置以D。

d

副詞

adverb的第2個(gè)字母,因其第1個(gè)字母已用于形容詞。

e

嘆詞

取英語(yǔ)嘆詞exclamation的第1個(gè)字母。

f

 

方位詞

取漢字“方”

g

 

語(yǔ)素

 

絕大多數語(yǔ)素都能作為合成詞的“詞根”,取漢字“根”的聲母。

h

 

前接成分 

取英語(yǔ)head的第1個(gè)字母。

i

 

成語(yǔ)

取英語(yǔ)成語(yǔ)idiom的第1個(gè)字母。

j

 

簡(jiǎn)稱(chēng)略語(yǔ) 

取漢字“簡(jiǎn)”的聲母。

k

 

后接成分

l

習用語(yǔ) 

習用語(yǔ)尚未成為成語(yǔ),有點(diǎn)“臨時(shí)性”,取“臨”的聲母。

m

 

數詞 

取英語(yǔ)numeral的第3個(gè)字母,n,u已有他用。

Ng 

名語(yǔ)素 

名詞性語(yǔ)素。名詞代碼為n,語(yǔ)素代碼g前面置以N。

n

 

名詞

取英語(yǔ)名詞noun的第1個(gè)字母。

nr 

人名

名詞代碼n和“人(ren)”的聲母并在一起。

ns

 

地名

名詞代碼n和處所詞代碼s并在一起。

nt

 

機構團體

“團”的聲母為t,名詞代碼nt并在一起。

nz 

其他專(zhuān)名 

“專(zhuān)”的聲母的第1個(gè)字母為z,名詞代碼nz并在一起。

o

 

擬聲詞 

取英語(yǔ)擬聲詞onomatopoeia的第1個(gè)字母。

p

介詞

取英語(yǔ)介詞prepositional的第1個(gè)字母。

q

 

量詞

 

取英語(yǔ)quantity的第1個(gè)字母。

r 

代詞 

取英語(yǔ)代詞pronoun的第2個(gè)字母,p已用于介詞。

s 

處所詞 

取英語(yǔ)space的第1個(gè)字母。

Tg

時(shí)語(yǔ)素 

時(shí)間詞性語(yǔ)素。時(shí)間詞代碼為t,在語(yǔ)素的代碼g前面置以T。

t

時(shí)間詞 

取英語(yǔ)time的第1個(gè)字母。

u

助詞 

取英語(yǔ)助詞auxiliary

Vg

 

動(dòng)語(yǔ)素 

動(dòng)詞性語(yǔ)素。動(dòng)詞代碼為v。在語(yǔ)素的代碼g前面置以V。

v

 

動(dòng)詞

取英語(yǔ)動(dòng)詞verb的第一個(gè)字母。

vd

副動(dòng)詞

直接作狀語(yǔ)的動(dòng)詞。動(dòng)詞和副詞的代碼并在一起。

vn 

名動(dòng)詞 

指具有名詞功能的動(dòng)詞。動(dòng)詞和名詞的代碼并在一起。

w

標點(diǎn)符號

x 

非語(yǔ)素字 

非語(yǔ)素字只是一個(gè)符號,字母x通常用于代表未知數、符號。

y

 

語(yǔ)氣詞 

取漢字“語(yǔ)”的聲母。

z 

狀態(tài)詞 

取漢字“狀”的聲母的前一個(gè)字母。

五、分詞效果

搜索“美的”,我們的結果是前22條全部是與“美的”品牌相關(guān)的新聞,百度的結果是前4條是相關(guān)的,中搜的結果是前10條中有4條是相關(guān)的。

本站僅提供存儲服務(wù),所有內容均由用戶(hù)發(fā)布,如發(fā)現有害或侵權內容,請點(diǎn)擊舉報。
打開(kāi)APP,閱讀全文并永久保存 查看更多類(lèi)似文章
猜你喜歡
類(lèi)似文章
英語(yǔ)語(yǔ)法歸類(lèi)
超好用的英語(yǔ)語(yǔ)法順口溜,趁寒假讓孩子記起來(lái)(中小學(xué)生都適用)
英語(yǔ)學(xué)習的語(yǔ)法規律口訣【英語(yǔ)學(xué)習】
學(xué)英文必背口訣
古代漢語(yǔ)名詞解釋
方言雜談|舟山方言知多少
更多類(lèi)似文章 >>
生活服務(wù)
分享 收藏 導長(cháng)圖 關(guān)注 下載文章
綁定賬號成功
后續可登錄賬號暢享VIP特權!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服

欧美性猛交XXXX免费看蜜桃,成人网18免费韩国,亚洲国产成人精品区综合,欧美日韩一区二区三区高清不卡,亚洲综合一区二区精品久久