感謝一些熱心關(guān)注,這幾個(gè)月意外層出不窮,另一方面又比較懶,所以沒(méi)有持續寫(xiě)下去。
引言
很多人和js說(shuō),想通過(guò)系統的學(xué)習檢索,使檢索水平得到提高。
js很為難,因為事實(shí)上沒(méi)有較系統的“檢索理論”。不信的話(huà)去書(shū)店翻翻那些污七八糟的檢索書(shū),看看里面都談了哪些“理論”。
底層的術(shù)語(yǔ)構成、術(shù)語(yǔ)組合或許有規律,但沒(méi)有大樣本統計很難揭示,齊夫規律僅僅是談到詞頻而已。
因此,js想基于檢索實(shí)踐,談一些檢索實(shí)踐中常犯的錯誤,使檢索者通過(guò)增加實(shí)踐,少犯錯誤,逐漸提高檢索水平,并在實(shí)踐中體會(huì )和發(fā)現一些規律,這樣集思廣益,或許對認識與構建所謂的系統的“檢索理論”有點(diǎn)意義。
1. (先來(lái)個(gè)震撼點(diǎn)的)google一下“全球變暖”,有超過(guò)1000萬(wàn)個(gè)網(wǎng)頁(yè)。(更多的俗稱(chēng)是baidu一下...)
錯:很少有人想到這是個(gè)騙局。給檢索框里的“全球變暖”加上雙引號(單引號都不行),發(fā)現只有65萬(wàn)多網(wǎng)頁(yè)(2009年11月28日)。
原因:
(1)google使用了分詞技術(shù)以及相關(guān)性檢索,將不完全匹配的網(wǎng)頁(yè)也視作檢索結果。例如僅含有“全球”或“變暖”,或者“全球”和“變暖”未連在一起的。具體輸出情形,js未做確切核實(shí)。當然了,google自然有人知道,這取決于匹配規則和輸出閾等。
(2)實(shí)際上即便只有6萬(wàn)個(gè)網(wǎng)頁(yè),顯示說(shuō)有60萬(wàn)個(gè)也沒(méi)有問(wèn)題,因為沒(méi)有人會(huì )找到第60001個(gè)網(wǎng)頁(yè),看是否相關(guān)。
不信的話(huà),用google提交“迪拜危機”(加雙引號)翻到最后一頁(yè)(相信js,你就能翻到),同時(shí)注意提示的檢索結果數量的變化。
很多新聞在結束時(shí),習慣說(shuō)個(gè)“baidu一下”或者“google一下”,與某個(gè)關(guān)鍵詞相關(guān)的網(wǎng)頁(yè)有xxxxx個(gè),其實(shí)這些都是廢話(huà)。
2. 檢索系統很強大,只有想不到,沒(méi)有檢不到。
錯:你檢不到下周中午12點(diǎn)北京的具體氣溫,檢不到2012年的某一天會(huì )在做什么,檢不到你的愛(ài)人現在想什么,檢不到史前一萬(wàn)年世界上有多少只螞蟻,檢不到海底一萬(wàn)米究竟有哪些生物...
實(shí)際上,你只能檢到檢索系統收錄的信息。
3. 檢索高手很厲害,“人肉搜索”讓人無(wú)處可躲。
錯:
(1)所謂的“人肉搜索”是對“Grassroots search”(草根搜索)的誤解。
搜索引擎使應用計算機檢索系統進(jìn)行的檢索得到普及,之前僅僅是一些專(zhuān)業(yè)的檢索人員以及專(zhuān)業(yè)的學(xué)術(shù)研究人員使用計算機檢索系統。搜索引擎的出現,使檢索的門(mén)檻大大降低,一般人(草根)也能使用了。
當然,專(zhuān)業(yè)的計算機檢索系統在檢索內容和檢索功能上區別還是相當大的。
(2)菜鳥(niǎo)們對“人肉搜索”有兩種理解:a.集中較多的人進(jìn)行某個(gè)專(zhuān)門(mén)檢索(往往是搜某個(gè)十惡不赦者);b.搜某人。
實(shí)際上,100個(gè)人一起跑,速度還是趕不上汽車(chē),菜鳥(niǎo)還是菜鳥(niǎo)。
至于什么找到某人的相關(guān)信息,實(shí)際上往往是現實(shí)中的知情人披露,而不是什么“人肉搜索”找到。那么多人怎么就“人肉”不到賈君鵬?
(3)以js的眼光看,也沒(méi)啥“檢索高手”。google是大眾化的檢索工具,其檢索功能并不繁復,baidu就甭提了。這樣的檢索系統要成就高手,那是yy。
“人肉搜素”從名稱(chēng)和效應看,好像很可怕(盡管只是虛張聲勢),真正可怕的是缺失話(huà)語(yǔ)權底層的下意識宣泄,這和菜鳥(niǎo)們所推崇的“高精尖”檢索技術(shù)無(wú)關(guān)。
實(shí)際上,1000個(gè)被“不準geming”的螞蟻還是螞蟻,一樣搞不定大象。
4. 我的檢索水平低,是因為沒(méi)有專(zhuān)門(mén)學(xué)過(guò)系統的“檢索理論”。
錯:你看一百本菜譜,自己不動(dòng)手,還是只能做出豬食。
檢索做為一項實(shí)踐活動(dòng),目前還沒(méi)什么系統的“理論”,很多需要你在實(shí)際中積累感性認識。
5. 現在的檢索系統不好,垃圾信息很多,找不到我想要找的。
錯:說(shuō)這話(huà)的基本是缺乏較多檢索經(jīng)歷的外行,而且針對的是搜索引擎(他們也不會(huì )用專(zhuān)門(mén)的學(xué)術(shù)文獻檢索系統)。
要明白:你的檢索目的是什么,是找到明天的氣象信息,還是近期的商業(yè)促銷(xiāo)信息。
對于前者,你檢索到1條準確的就行,這很容易;對于后者,你檢索到1萬(wàn)條有關(guān)冬裝打折的消息或許也嫌它們是垃圾,因為你感興趣的是伊利牛奶。
說(shuō)google容易檢索出什么垃圾信息的,往往是首先因為有些自以為是的“研究人員”基于促銷(xiāo)自己的什么能把“垃圾信息”過(guò)濾的原創(chuàng )技術(shù)的需要。更多的外行冒充專(zhuān)業(yè)人員也跟風(fēng)以為有人能做得更好。
js對這些很不屑,沒(méi)做過(guò)幾道菜、沒(méi)吃過(guò)幾道菜也算大廚?也冒充評委平頭論足?建議聽(tīng)聽(tīng)“我完全沒(méi)有任何理由理你”。
本質(zhì)上說(shuō),在圖論上的NPC問(wèn)題沒(méi)解決,人工智能無(wú)法真正實(shí)現之前,那些優(yōu)化算法的作用很有限。
有空接著(zhù)寫(xiě)。
限于個(gè)人淺薄認識,上述內容中肯定也有很多一定是js也想錯了,還請發(fā)現后告訴我,幫助我完善和提高,謝謝!

