http://blog.csdn.net/9731boy/Rss.aspx
CLucene是C++版的全文檢索引擎,完全移植于Lucene,不過(guò)對中文支持不好,而且有很多的內存泄露,:P Cluene不支持中文的分詞,我就寫(xiě)了一個(gè)簡(jiǎn)單的中文分詞,大概思路就是傳統的二分詞法,因為中文的分詞不像英文這類(lèi)的語(yǔ)言,一遇到空格或標點(diǎn)就認為是一個(gè)詞的結束,所以就采用二分詞法,二分詞法就是例如:北京市,就切成 北京 , 京市。if(((char_t)ch>>8)&&(char_t)ch>=0xa0) isChinese = true;
聯(lián)系客服