在PHPE.net論壇上給網(wǎng)友的回貼。
現在的搜索引擎技術(shù)主要包括四個(gè)環(huán)節,網(wǎng)頁(yè)抓取、超鏈分析、網(wǎng)頁(yè)檢索和搜索服務(wù)。分詞就是把一句完整的話(huà)分成幾個(gè)詞,搜索引擎找出其中的關(guān)鍵詞進(jìn)行檢索。中文分詞是搜索服務(wù)的入口點(diǎn),是中文搜索引擎的基礎所在。有了良好的分詞技術(shù),才能真正讓搜索引擎了解用戶(hù)所需要的信息是什么。
寫(xiě)寫(xiě)中文分詞的PHP實(shí)現思路(因為最近正在寫(xiě)個(gè)項目,暫時(shí)不能提供源代碼,不過(guò)難度不大),雖然在各方面都還有待完善,但是整個(gè)流程還是比較完整的。
首先有關(guān)分詞的基礎知識:
分詞技術(shù)研究報告
http://www.lw86.com/lunwen/computer/ai/3818.html
中文搜索引擎技術(shù)揭密:中文分詞
http://www.shi8.com/286.html
推薦看些課件(北大中文系研究生的課程):
http://ccl.pku.edu.cn/doubtfire/Course/Chinese%20Information%20Processing/2002_2003_1.htm
http://ccl.pku.edu.cn/doubtfire/Course/Chinese%20Information%20Processing/contents/Chapter_07_1.ppt
第二. 語(yǔ)料庫的準備
可以選用《人民日報》語(yǔ)料庫,是北京大學(xué)計算語(yǔ)言學(xué)研究所與富士通公司(Fujitsu)合作的產(chǎn)品,加工2700萬(wàn)字的《人民日報》語(yǔ)料庫,加工項目包括詞語(yǔ)切分、詞性標注、專(zhuān)有名詞(專(zhuān)有名詞短語(yǔ))標注。在網(wǎng)上可以下載,不過(guò)不清楚是否免費,請自行搜索。
語(yǔ)料庫要加工為詞典,供PHP程序使用。
第三. 分詞算法原理
最常用的是最大匹配法和最大概率法,為了加強精確度,避免歧義,可以結合多種算法。多種算法結合會(huì )導致速度下降,視項目要求采用。
第四. 分詞的PHP實(shí)現
原理見(jiàn)上面推薦的PPT幻燈片,只不過(guò)是用PHP加載詞典文件,再實(shí)現字符串的搜索而已。目前來(lái)看,效果還是不錯的,但是效率不太高。沒(méi)有辦法,像PHP這種腳本語(yǔ)言,要求不能太高。接下來(lái)試試先用C寫(xiě)分詞部份,再用PHP調用,測試一下效率。
本站僅提供存儲服務(wù),所有內容均由用戶(hù)發(fā)布,如發(fā)現有害或侵權內容,請
點(diǎn)擊舉報。