欧美性猛交XXXX免费看蜜桃,成人网18免费韩国,亚洲国产成人精品区综合,欧美日韩一区二区三区高清不卡,亚洲综合一区二区精品久久

打開(kāi)APP
userphoto
未登錄

開(kāi)通VIP,暢享免費電子書(shū)等14項超值服

開(kāi)通VIP
中文分詞的實(shí)現思路
在PHPE.net論壇上給網(wǎng)友的回貼。

現在的搜索引擎技術(shù)主要包括四個(gè)環(huán)節,網(wǎng)頁(yè)抓取、超鏈分析、網(wǎng)頁(yè)檢索和搜索服務(wù)。分詞就是把一句完整的話(huà)分成幾個(gè)詞,搜索引擎找出其中的關(guān)鍵詞進(jìn)行檢索。中文分詞是搜索服務(wù)的入口點(diǎn),是中文搜索引擎的基礎所在。有了良好的分詞技術(shù),才能真正讓搜索引擎了解用戶(hù)所需要的信息是什么。

寫(xiě)寫(xiě)中文分詞的PHP實(shí)現思路(因為最近正在寫(xiě)個(gè)項目,暫時(shí)不能提供源代碼,不過(guò)難度不大),雖然在各方面都還有待完善,但是整個(gè)流程還是比較完整的。

首先有關(guān)分詞的基礎知識:

分詞技術(shù)研究報告
http://www.lw86.com/lunwen/computer/ai/3818.html

中文搜索引擎技術(shù)揭密:中文分詞
http://www.shi8.com/286.html

推薦看些課件(北大中文系研究生的課程):
http://ccl.pku.edu.cn/doubtfire/Course/Chinese%20Information%20Processing/2002_2003_1.htm
http://ccl.pku.edu.cn/doubtfire/Course/Chinese%20Information%20Processing/contents/Chapter_07_1.ppt



第二. 語(yǔ)料庫的準備
可以選用《人民日報》語(yǔ)料庫,是北京大學(xué)計算語(yǔ)言學(xué)研究所與富士通公司(Fujitsu)合作的產(chǎn)品,加工2700萬(wàn)字的《人民日報》語(yǔ)料庫,加工項目包括詞語(yǔ)切分、詞性標注、專(zhuān)有名詞(專(zhuān)有名詞短語(yǔ))標注。在網(wǎng)上可以下載,不過(guò)不清楚是否免費,請自行搜索。

語(yǔ)料庫要加工為詞典,供PHP程序使用。

第三. 分詞算法原理
最常用的是最大匹配法和最大概率法,為了加強精確度,避免歧義,可以結合多種算法。多種算法結合會(huì )導致速度下降,視項目要求采用。

第四. 分詞的PHP實(shí)現
原理見(jiàn)上面推薦的PPT幻燈片,只不過(guò)是用PHP加載詞典文件,再實(shí)現字符串的搜索而已。目前來(lái)看,效果還是不錯的,但是效率不太高。沒(méi)有辦法,像PHP這種腳本語(yǔ)言,要求不能太高。接下來(lái)試試先用C寫(xiě)分詞部份,再用PHP調用,測試一下效率。
本站僅提供存儲服務(wù),所有內容均由用戶(hù)發(fā)布,如發(fā)現有害或侵權內容,請點(diǎn)擊舉報。
打開(kāi)APP,閱讀全文并永久保存 查看更多類(lèi)似文章
猜你喜歡
類(lèi)似文章
搜索引擎的工作機制[圖]
博客園 - 聽(tīng)棠.NET - 用.NET開(kāi)發(fā)MSN聊天機器人[轉]
NLP極簡(jiǎn)入門(mén)指南,助你通過(guò)面試,踏入NLP的大門(mén)
中文搜索引擎的研究分析
最新免費幫你推廣的搜索引擎.站長(cháng)們必搶的的好東東喔
中文搜索引擎研究
更多類(lèi)似文章 >>
生活服務(wù)
分享 收藏 導長(cháng)圖 關(guān)注 下載文章
綁定賬號成功
后續可登錄賬號暢享VIP特權!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服

欧美性猛交XXXX免费看蜜桃,成人网18免费韩国,亚洲国产成人精品区综合,欧美日韩一区二区三区高清不卡,亚洲综合一区二区精品久久