
我經(jīng)常使用搜索引擎,但我最常使用的還是百度。用的久了對百度的搜索技術(shù)就有了些許猜測。
一、百度有最勤勞的網(wǎng)絡(luò )抓取器。
在我使用的各種搜索引擎里,只有百度提供了“一天”和“一周”的搜索,所以我認為百度搜索互聯(lián)網(wǎng)的頻率要比任何其他的搜索引擎都要勤。
二、百度有很準確的漢字斷字能力。我估計百度有豐富的詞庫,而且是可以不斷寬展的詞庫,這個(gè)詞庫是個(gè)很大的數據庫,不但記錄著(zhù)詞匯組合而且包含頻率等數據,在斷字時(shí),頻率較高的在斷字時(shí)是處于優(yōu)先地位;我甚至認為,百度為斷字專(zhuān)門(mén)設計了一個(gè)智能程序,其斷字能力可以和人媲美。
三、百度對各種曾經(jīng)用戶(hù)輸入的搜索請求都有記錄,這些記錄也組成一個(gè)龐大的數據庫,他們搜索的頻率也包含在其中,對于那些經(jīng)常被搜索的詞條,百度的網(wǎng)絡(luò )抓取器會(huì )主動(dòng)對這些詞條進(jìn)行互聯(lián)網(wǎng)搜索,形成網(wǎng)頁(yè)快照,方便服務(wù)器搜索。當你搜索過(guò)你自己的名字后,你會(huì )發(fā)現你的博客幾乎每天都會(huì )被百度光顧。
因此,百度的高明在在搜索軟件上,他們做出高效率的網(wǎng)絡(luò )抓取器,具有高度智能的分析程序,因此百度的員工不必象門(mén)戶(hù)那樣聘用大量的編輯,而是靠機器去互聯(lián)網(wǎng)抓??;用分析程序把結果呈現給用戶(hù),這些分析程序甚至能夠把和搜索結果密切相關(guān)的廣告也呈現給用戶(hù)。這也許算的上信息生產(chǎn)中的機器生產(chǎn)吧??!
聯(lián)系客服