亚洲人妻无码首页_ 中文搜索引擎的研究分析

目前搜索引擎的應用越來(lái)越廣，是網(wǎng)民的上網(wǎng)必備工具。在中國使用廣泛的搜索引擎主要有：baidu google 中搜北大天網(wǎng) 一搜搜狗還有一些專(zhuān)業(yè)的搜索，比如海量做的音樂(lè )搜索 http://www.1234567.com 還有西祠胡同的創(chuàng )始人做的 http://www.pagou.com ，這些都是做的挺不錯。由此可見(jiàn)，搜索引擎的市場(chǎng)還是非常龐大的。尤其是baidu的成功上市，給業(yè)界很大的鼓舞。目前的主要搜索引擎的模式都是，用戶(hù)輸入一些關(guān)鍵字或者句子，無(wú)論是那種，搜索引擎都會(huì )首先對用戶(hù)的輸入進(jìn)行分詞，這樣可以增加搜索結果的準確性，這是和普通數據庫搜索的不同點(diǎn)（普通的數據庫搜索，只是簡(jiǎn)單的用 like %關(guān)鍵字%），然后搜索引擎去海量的索引庫去查找這些和用戶(hù)輸入相關(guān)的信息，顯示的結果會(huì )包含網(wǎng)頁(yè)的相關(guān)摘要。中文搜索引擎相關(guān)的技術(shù)包含：網(wǎng)絡(luò )蜘蛛，中文分詞，索引庫，網(wǎng)頁(yè)摘要的提取，網(wǎng)頁(yè)相似度，信息的分類(lèi)。1。網(wǎng)絡(luò )蜘蛛網(wǎng)絡(luò )蛛蛛是指對浩瀚網(wǎng)絡(luò )抓取信息的程序，他們往往是多線(xiàn)程，不分晝夜的抓取網(wǎng)絡(luò )信息，同時(shí)要防止對某個(gè)站點(diǎn)抓取過(guò)快，導致信息提供方服務(wù)器過(guò)載。網(wǎng)絡(luò )蜘蛛的基本原理：先從一個(gè)起始頁(yè)面（建議從yahoo中文目錄或者dmoz中文目錄）開(kāi)始抓取，獲取此頁(yè)面內容，摘要，然后提取頁(yè)面所有連接，蜘蛛接著(zhù)抓取這些連接，一直源源不斷的抓取。這些只是基本原理，實(shí)際應用要復雜很多，你可以試著(zhù)自己寫(xiě)一個(gè)蜘蛛，我曾經(jīng)用PHP寫(xiě)過(guò)（PHP不能多線(xiàn)程，缺陷。）2。中文分詞中文分詞一直是中文搜索引擎的關(guān)鍵點(diǎn)，中文不同英文，英文每個(gè)單詞是用空格分開(kāi)，而中文一個(gè)句子往往是一些詞的連結，沒(méi)有分割符，人可以很容易的看懂句子的意思，但是計算機很難開(kāi)懂。目前我了解的中文分詞方法（據說(shuō)有老外的不用詞典的中文分詞方法），幾乎都是有自己的中文詞典，分詞時(shí)去詞典匹配，達到分詞目的，分詞的好壞，和詞典關(guān)系很大。你可以看我上篇文章，是用PHP寫(xiě)的中文分詞方法。目前很多高校語(yǔ)言學(xué)的碩士論文都寫(xiě)的這個(gè)baidu用的自己開(kāi)發(fā)分詞方法，google用的第3方的分詞方法。海量中文分詞挺不錯，不過(guò)是商業(yè)的。獵兔的中文分詞方法也不錯，不過(guò)是.so的，無(wú)法研究3。索引庫搜索引擎都不會(huì )用已經(jīng)成型的數據庫系統，他們是自己開(kāi)發(fā)的類(lèi)似數據庫功能的東西。搜索引擎需要保存大量網(wǎng)頁(yè)信息，快照，關(guān)鍵字索引（建議應該也保存網(wǎng)頁(yè)的截圖，我在研究中），所以數據量特別大。4。網(wǎng)頁(yè)摘要的提取網(wǎng)頁(yè)摘要是指對某個(gè)網(wǎng)頁(yè)信息的總結（初中語(yǔ)文課，老師經(jīng)常讓總結文章的中心思想，就這個(gè)意思，我最怕老師提問(wèn)讓我總結，人總結都這么難，現在讓計算機總結，天啦），搜索引擎搜索結果里，往往會(huì )有網(wǎng)頁(yè)標題下面，會(huì )有些介紹，讓搜索者很容易的發(fā)現此文章是不是想要的信息。5。網(wǎng)頁(yè)相似度網(wǎng)上經(jīng)常有很多內容一樣的網(wǎng)站，比如說(shuō)同一條新聞，各大門(mén)戶(hù)網(wǎng)站都會(huì )發(fā)布，它們的新聞內容都是一樣的。還有一些個(gè)人網(wǎng)站，尤其是偷別人網(wǎng)站資料的網(wǎng)站，和別人網(wǎng)站搞的一模一樣（我搞過(guò)，在此ps下自己），這樣的網(wǎng)站毫無(wú)意義，搜索引擎會(huì )自動(dòng)區分，降低其權值（baidu最狠，直接封站，我嘗試過(guò)）。目前我研究的計算網(wǎng)頁(yè)相似度的幾種方法如下：1) 根據網(wǎng)頁(yè)摘要來(lái)比較，如果多個(gè)網(wǎng)頁(yè)摘要的md5值一樣，證明這些網(wǎng)頁(yè)有很高的相似性2) 根據網(wǎng)頁(yè)出現關(guān)鍵詞，按照詞頻排序，可以取N個(gè)詞頻高的，如果md5值一樣，證明這些網(wǎng)頁(yè)有很高的相似性。google baidu 的新聞，是對此技術(shù)的應用。目前很多高校的數據挖掘專(zhuān)業(yè)的研究生論文都寫(xiě)的這個(gè).6。信息的自動(dòng)分類(lèi)網(wǎng)絡(luò )的信息實(shí)在是太龐大了，如何對其進(jìn)行分類(lèi)，是搜索引擎面臨的難題。要讓計算機對數據自動(dòng)分類(lèi)，先要對計算機程序進(jìn)行培訓，目前正在研究中爬狗做的不錯。

本站僅提供存儲服務(wù)，所有內容均由用戶(hù)發(fā)布，如發(fā)現有害或侵權內容，請點(diǎn)擊舉報。

欧美性猛交XXXX免费看蜜桃,成人网18免费韩国,亚洲国产成人精品区综合,欧美日韩一区二区三区高清不卡,亚洲综合一区二区精品久久