搜索引擎發(fā)展的隨想
--北京博越世紀科技有限公司項目總監 朱紅軍
前段時(shí)間百度上市,使得本已硝煙四起的搜索引擎行業(yè)愈發(fā)的沸沸揚揚,一時(shí)間,幾乎所有的媒體、網(wǎng)絡(luò )都在關(guān)注著(zhù)這一個(gè)IT行業(yè)的新熱點(diǎn)。閑來(lái)無(wú)事,也想把自己的一些感受記錄下來(lái),湊湊熱鬧。
在我們許多人的印象里,似乎很多的新技術(shù)都來(lái)自一個(gè)地方——新的技術(shù)來(lái)自于哪里,去大學(xué)里看看,大學(xué)是新思想的一個(gè)主要來(lái)源。1990年由蒙特利爾的幾個(gè)學(xué)生發(fā)明的Archie僅僅是自動(dòng)索引互聯(lián)網(wǎng)匿名FTP網(wǎng)站文件的程序,到麻省的3w wanderer,到斯坦福的excite概念搜索,到yahoo,到斯坦福的backRub項目蛻變的Google。無(wú)一不是著(zhù)名高校的產(chǎn)物或者和學(xué)校的項目相關(guān)。(我國的高等教育成果有待加強??!呃,扯遠了,呵呵)
實(shí)際上今天的搜索問(wèn)題跟五年前已是大不相同?,F在網(wǎng)絡(luò )上不光有書(shū)籍、論文,還有數字化的電視節目,這就要求搜索技術(shù)比以前更加優(yōu)秀。人們希望找到可以信賴(lài)的信息,希望搜索工具可以對更加復雜的問(wèn)題進(jìn)行搜索。
搜索引擎要用到信息檢索、人工智能、計算機網(wǎng)絡(luò )、分布式處理、數據庫、數據挖掘、數字圖書(shū)館、自然語(yǔ)言處理等多領(lǐng)域的理論和技術(shù),并且由于搜索引擎能擁有大量的用戶(hù),在注意力引導上有著(zhù)天生的優(yōu)勢,這位新生的帥哥必然受到眾多IT豪門(mén)的追捧。在我看來(lái),搜索引擎的發(fā)展有以下幾個(gè)方面: 1.智能搜索和個(gè)性化服務(wù) 我所說(shuō)的智能搜索并非指信息智能代理這個(gè)較大的范疇,而是搜索的核心技術(shù),目前在智能分析領(lǐng)域,語(yǔ)義分析過(guò)于復雜,一直沒(méi)有成熟的產(chǎn)品出現,而基于神經(jīng)網(wǎng)絡(luò )的智能分析才剛剛起步,只有少數的國外先進(jìn)搜索引擎技術(shù)提供商的模式匹配技術(shù)(以數學(xué)為基礎的統計量化)成功走出了實(shí)驗室并在全球成功商業(yè)化。他們中的部分技術(shù)不是真正的語(yǔ)義分析,但它使用的技術(shù)達到了語(yǔ)義理解的高度,也是目前智能分析領(lǐng)域的進(jìn)步。而且只能搜索應該對多種格式存儲的信息進(jìn)行檢索。 信息智能代理是一種綜合利用互聯(lián)網(wǎng)信息的機制。它使用自動(dòng)獲得的領(lǐng)域模型(如web知識、信息處理、與用戶(hù)興趣相關(guān)的信息資源、領(lǐng)域組織結構)、用戶(hù)模型(如用戶(hù)背景、興趣、行為、風(fēng)格)知識進(jìn)行信息搜集、索引、過(guò)濾(包括興趣過(guò)濾和不良信息過(guò)濾),并自動(dòng)地將用戶(hù)感興趣的、對用戶(hù)有用的信息提交給用戶(hù)。智能代理具有不斷學(xué)習、適應信息和用戶(hù)興趣動(dòng)態(tài)變化的能力,從而提供個(gè)性化的服務(wù)。智能代理可以在用戶(hù)端進(jìn)行,也可以在服務(wù)器端運行。 2.交叉語(yǔ)言檢索的研究和開(kāi)發(fā) 交叉語(yǔ)言信息檢索是指我用漢語(yǔ)文字提交查詢(xún),搜索引擎能在多種語(yǔ)言的數據庫中進(jìn)行信息檢索,返回結果可以用母語(yǔ)顯示。但是因為語(yǔ)言的區域特性,在表達方式和語(yǔ)義對應上的不同語(yǔ)言的差別很大,因此技術(shù)實(shí)現有相當的難度。但是對于網(wǎng)絡(luò )互聯(lián),數據共享的目的而言,這似乎又是大眾需要的一種目標。 3.提高信息查詢(xún)的精度,提高用戶(hù)輸入查詢(xún)條件的命中率 當我們在互聯(lián)網(wǎng)上進(jìn)行搜索的時(shí)候,我們更關(guān)注的是問(wèn)題的答案,而不是給我們一個(gè)浩浩蕩蕩的查詢(xún)結果列表,對于搜索引擎返回的大量繁雜的結果,用戶(hù)不得不在結果中進(jìn)行人工的分選,實(shí)際上還是花費了許多的時(shí)間。我認為一方面,用戶(hù)本身需要提高搜索引擎使用的技巧,很多人不太關(guān)注這點(diǎn),其實(shí)同樣一個(gè)問(wèn)題,兩個(gè)人得到的搜索結果的質(zhì)量可能有非常大的差別。另一方面,搜索引擎技術(shù)提供商和服務(wù)商要注意改進(jìn)用戶(hù)模型,追蹤用戶(hù)檢索行為,使用相關(guān)度反饋機制,逐步求精?;蛘卟捎谜姆诸?lèi)技術(shù)將結果分類(lèi),用戶(hù)可以只瀏覽自己感興趣的類(lèi)別。再則是進(jìn)行站點(diǎn)類(lèi)聚或內容類(lèi)聚,減少信息的總量。 4.從商業(yè)應用的模式上來(lái)看,可以做專(zhuān)注的技術(shù)提供商(比如杰出的autonomy),也可以做搜索的服務(wù)提供商;當前的搜索服務(wù)除了網(wǎng)站推介,門(mén)戶(hù)搜索之外,在行業(yè)領(lǐng)域內的專(zhuān)業(yè)檢索,政府和企業(yè)行業(yè)的垂直檢索,政府和企業(yè)內的知識庫檢索都會(huì )有比較旺盛的需求,尤其是搜索引擎在對于語(yǔ)義分析的智能分析技術(shù)提高后,和KM的融合會(huì )有非?,F實(shí)的客戶(hù)效益,從而促進(jìn)KM市場(chǎng)的發(fā)展。 歡迎訪(fǎng)問(wèn)我的BLOG http://kjolen.blogchina.com/
聯(lián)系客服