由于很多朋友要求寫(xiě)一篇搜索引擎分詞技術(shù)的文章,特別是關(guān)于百度分詞的。我今天就發(fā)發(fā)給大家
Moon 10月9號在SEOWHY周四答疑群給講解的分詞技術(shù)今天給大家帖出來(lái)供大家學(xué)習一下。
分詞技術(shù) : 什么是分詞, 如何分詞搜索引擎會(huì )承認,這次第一位朋友提的問(wèn)題,想必大家也聽(tīng)說(shuō)過(guò),很好奇,什么是分詞技術(shù),什么又是百度分詞呢?分詞大家容易理解。就是一段詞用字符分開(kāi),比如標點(diǎn)符號,空格等。
那什么叫分詞技術(shù)呢?分詞技術(shù)就是SE針對用戶(hù)提交查詢(xún)的關(guān)鍵串進(jìn)行的查詢(xún)處理后根據用戶(hù)的關(guān)鍵詞串用各種匹配方法進(jìn)行的一種技術(shù)。大家好好理解。那么我們要理解分詞技術(shù)先要理解一個(gè)概念。那就是查詢(xún)處理,當用戶(hù)向搜索引擎提交查詢(xún)后,搜索隱藏接收到用戶(hù)的信息要做一系列的處理。首先是到數據庫里面索引相關(guān)的信息,
這就是查詢(xún)處理,那么查詢(xún)處理又是如何工作的呢?很簡(jiǎn)單,把用戶(hù)提交的字符串沒(méi)有超過(guò)3個(gè)的中文字,就會(huì )直接到數據庫索引詞匯。超過(guò)4個(gè)中文字的,首先用分隔符比如空格,標點(diǎn)符號,將查詢(xún)串分割成若干子查詢(xún)串。舉個(gè)例子。"什么是百度分詞技術(shù)" 我們就會(huì )把這個(gè)詞分割成" 什么是,百度,分詞技術(shù)。"這種分詞方法叫做反向匹配法。2.然后再看用戶(hù)提供的這個(gè)詞有沒(méi)有重復詞匯。
如果有的話(huà),會(huì )丟棄掉,默認為一個(gè)詞匯。接下來(lái)檢查用戶(hù)提交的字符串,有沒(méi)有字母和數字。如果有的話(huà),就把字母和數字認為一個(gè)詞。好了,這就是SE的查詢(xún)處理。
講了查詢(xún)處理后,大家對分詞技術(shù),尤其是中文分詞技術(shù)有了一個(gè)基本的了解。
其實(shí)我講的都是搜索引擎的原理。好了,我接下來(lái)講分詞的原理。我們用百度來(lái)舉例
百度是如何來(lái)分詞的呢?分詞技術(shù)現今非常成熟了。他分為3種技術(shù)。
1.字符串匹配的分詞方法
2.詞義分詞法。
3.統計分此法。
先說(shuō)第一種。
也是常用的分詞法,百度就是用此種分詞。字符串匹配的分詞方法,他又分為3中分詞方法。
1.正向最大匹配法
什么意思呢?就是把一個(gè)詞從左至右來(lái)分詞。
舉個(gè)例子。
"不知道你在說(shuō)什么"
這句話(huà)采用正向最大匹配法是如何分的呢?"不知道,你,在,說(shuō)什么"與正向最大匹配法相對應的是反向最大匹配發(fā)。這是第二種分詞方法。
2.反向最大匹配法 來(lái)分上面我舉的例子是如何分的呢 "不知道你在說(shuō)什么"。反向最大匹配法來(lái)分上面這段是如何分的。"不,知道,你在,說(shuō),什么",這個(gè)就分的比較多了,反向最大匹配法就是從右至左。
3.就是最短路徑分詞法。
這個(gè)什么理解呢 ,就是說(shuō) 我一段話(huà)里面要求切出的詞數是最少的。還是上面哪句話(huà)
"不知道你在說(shuō)什么"最短路徑分詞法就是指,我把上面哪句話(huà)分成的詞要是最少的。不知道,你在,說(shuō)什么,這就是最短路徑分詞法,分出來(lái)就只有3個(gè)詞了 。好了,當然還有上面三種可以相互結合組成一些分詞方法。比如正向最大匹配法和反向最大匹配法組合起來(lái)就可以叫做雙向最大匹配法。好了,第一種說(shuō)完了,
2.詞義分詞法。
這種其實(shí)就是一種機器語(yǔ)音判斷的分詞
方法。很簡(jiǎn)單,進(jìn)行句法、語(yǔ)義分析,利用句法信息和語(yǔ)義信息來(lái)處理歧義現象來(lái)分詞,這種分詞方法,現在還不成熟。處在測試階段。
第三種,統計的分詞方法。
這個(gè)很簡(jiǎn)單,就是根據詞組的統計,就會(huì )發(fā)現兩個(gè)相鄰的字出現的頻率最多,那么這個(gè)詞就很重要。就可以作為用戶(hù)提供字符串中的分隔符。這樣來(lái)分詞。比如,"我的,你的,許多的,這里,這一,那里"。等等,這些詞出現的比較多,就從這些詞里面分開(kāi)來(lái)。好了,分詞技術(shù)講完了。
那么我們剛剛學(xué)了分詞技術(shù),又如何來(lái)運用他們?yōu)槲覀兊恼军c(diǎn)獲得流量呢
1.我們可以利用分詞技術(shù)來(lái)增加我們站點(diǎn)長(cháng)尾詞。這樣就可以獲取流量排名。
不但這些分出來(lái)的長(cháng)尾詞能夠獲取一定的排名,也能夠推動(dòng)站點(diǎn)的目標關(guān)鍵詞獲取很好的排名。這個(gè)原理就是內鏈原理,這里不再講了。講了這么多,我們舉個(gè)例子。
例如:三亞酒店預定,如何來(lái)分呢?
正向最大匹配,反向最大匹配,雙向最大匹配,最短鏈接匹配。
1.正向最大匹配
"三亞,酒店預定"
2.反向最大匹配
"三亞酒店,預定"
3.雙向最大匹配
"三亞,酒店,預定"
4.最短路徑最大匹配。
"三亞酒店預定"好了,我們分了詞為
"三亞,"酒店預定,預定,三亞酒店,三亞,酒店 ,三亞酒店預定。"
這些詞每個(gè)都可以做一個(gè)主題頁(yè)為目標關(guān)鍵詞
這些分出來(lái)的詞,把他們都作為你站點(diǎn)的主題頁(yè),導入鏈接權重上來(lái)了,競爭力就大了,因為這些頁(yè)面把他內鏈起來(lái)。用錨鏈接,指向主頁(yè)的目標關(guān)鍵詞。呵呵,這就是分詞的好處。他能夠提升目標關(guān)鍵詞的排名的競爭力也同時(shí)給站點(diǎn)帶來(lái)一定流量。一旦導入鏈接權重上來(lái)了,競爭力就大了,因為這些頁(yè)面把他內鏈起來(lái)。
用錨鏈接,指向主頁(yè)的目標關(guān)鍵詞。呵呵,這就是分詞的好處。他能夠提升目標關(guān)鍵詞的排名的競爭力也同時(shí)給站點(diǎn)帶來(lái)一定流量。分詞還有一種好處。那就是提升內頁(yè)的排名。好的,這個(gè)我就不詳細講了。因為我在SEOWHY已經(jīng)寫(xiě)了一篇文章。大家可以去看一下。就是關(guān)于百度,捕獲描述的文章。如果你的內頁(yè)不做描述,那么百度就會(huì )給你定義一個(gè)描述或者從你的頁(yè)面捕獲一個(gè)描述。在捕獲描述的時(shí)候,如果你的知道他會(huì )捕獲哪一段,那么你說(shuō),你的排名會(huì )不會(huì )上升。你就刻意寫(xiě)哪一段。
版權歸原作者所有
另:
Internet Explorer無(wú)法打開(kāi)Internet 站點(diǎn)的原因