久久人爽人人爽人人片aV_ Matrixjava大講壇之搜索引擎技術(shù)

農民 - Javen- 19:50:30
　　感謝大家支持！
　　
　　1、自由發(fā)言：大家悠著(zhù)點(diǎn)，不要太著(zhù)急啊。剛開(kāi)始請盡量由主講發(fā)言吧；
　　
　　2、一點(diǎn)限制：主講人與管理員的字體顏色為紅色，請大家使用黑色或者藍色，并且請大家
　　字體不要超過(guò)5號；
crane- 19:50:39
　　偶鼓掌先
老漁翁- 19:50:46
　　
crane- 19:51:01
　　
╃(Chris-- 19:51:05
　　hi,各位,現在開(kāi)始吧.
charbee- 19:51:06
　　廣州好像已經(jīng)20：00啦
朱世杰℡- 19:51:27
　　GG
農民 - Javen- 19:51:33
　　好了。大家歡迎 chris ，也感謝大家的支持！
真神- 19:52:28
　　歡迎
╃(Chris-- 19:52:31
　　恩,多謝大家支持,我先自我介紹一下.我是chris，matrix打算在這個(gè)高手群里經(jīng)常展開(kāi)一些專(zhuān)題性，技術(shù)含量比較高的專(zhuān)題討論，從來(lái)讓大家都能獲益。所以我今晚就拋磚引玉,希望以后大家也能踴躍報名.
╃(Chris-- 19:52:58
　　術(shù)業(yè)有專(zhuān)攻，誰(shuí)也不會(huì )是十全十美的高手，但是能夠把自己專(zhuān)長(cháng)的東西拿出來(lái)和大家分享，是一件很令人開(kāi)心的事情
阿古- 19:53:04
　　鼓掌
nemo- 19:53:10
　　
老漁翁- 19:53:19
　　
冰云- 19:53:25
　　別刷屏！
╃(Chris-- 19:53:29
　　搜索引擎技術(shù)不是我的專(zhuān)業(yè)，但是我的興趣，3年前我研究lucene源代碼從而對搜索引擎感
　　興趣，從而進(jìn)入了這個(gè)領(lǐng)域。
╃(Chris-- 19:53:53
　　我的專(zhuān)業(yè)是金融領(lǐng)域的一些算法研究和應用，在香港，這方面比國內還是要先進(jìn)一些，希
　　望下次能有機會(huì )給大家講講這方面的技術(shù)。
╃(Chris-- 19:54:02
　　言歸正傳，下面我們開(kāi)始今天的專(zhuān)題討論。
╃(Chris-- 19:54:26
　　我會(huì )從結構上和方向上做一些介紹，至于詳細的算法, 今晚因為時(shí)間原因我就不講那么詳
　　細,具體有疑問(wèn)大家在論壇發(fā)貼或者email和我聯(lián)系。
~~>.<~~- 19:55:12
　　good
　　!!
　　
╃(Chris-- 19:55:19
　　先大概介紹一些搜索引擎吧,這里指的搜索引擎是指類(lèi)似于www.google.com,www.baidu.com
　　這樣的搜索引擎.yahoo嚴格意義上,不具有一個(gè)完整的搜索引擎的全部東西.google是搜索
　　引擎的典范.
~~>.<~~- 19:55:20
　　有興趣。
╃(Chris-- 19:55:38
　　我今晚會(huì )大概介紹一下一個(gè)完整的搜索引擎的架構以及用到的關(guān)鍵技術(shù).
╃(Chris-- 19:55:53
　　對一個(gè)搜索引擎來(lái)講, 比較傳統的架構會(huì )是這樣的:
　　crawler - index engine - search engine
~~>.<~~- 19:55:53
　　怎么你打字超快啊。
　　
crane- 19:55:58
　　up一下
Server- 19:56:17
　　不要說(shuō)話(huà)，尊重一下
~~>.<~~- 19:56:22
　　
~~>.<~~- 19:56:32
　　比掌聲??！
KIKI- 19:56:55
　　暈,不要說(shuō)話(huà),聽(tīng)Chris大哥講
╃(Chris-- 19:56:58
　　crawler就是一個(gè)不斷從網(wǎng)上將網(wǎng)頁(yè)抓下來(lái)的一個(gè)引擎. index engine是一個(gè)索引引擎.
　　search engine就是檢索引擎.
╃(Chris-- 19:57:07
　　下面,我們先從crawler開(kāi)始講.
wuyu- 19:57:59
　　呵，百度的spider，trs的雷達，應該都算crawler吧？
╃(Chris-- 19:58:18
　　Crawler是一項比較復雜的技術(shù),Standford有一些博士畢業(yè)論文的主題就是Crawler的算法.
╃(Chris-- 19:58:45
　　對,但是就crawler來(lái)說(shuō),google無(wú)疑是做的最好的,具體也有很多數據,包括覆蓋率,精確性等.
╃(Chris-- 19:59:18
　　stanford有一下顎關(guān)于crawler的paper,大家可以訪(fǎng)問(wèn)
　　http://dbpubs.stanford.edu:8090/aux/index-en.html 里面有不少關(guān)于crawler的算法,
　　以及google的crawler的一些原型算法,當然現在的google的crawler遠遠要復雜的多.
wuyu- 19:59:55
　　Crawler主要完成哪些工作？包不包括對html、script這類(lèi)“無(wú)用”信息的處理？
　　
╃(Chris-- 19:59:56
　　就一個(gè)crawler來(lái)說(shuō),比較復雜的技術(shù)在于:
　　
charbee- 20:00:01
　　lucene跟google有什么關(guān)系嗎？
　　問(wèn)題我先mark一下，等下chris講完了，再問(wèn)
╃(Chris-- 20:00:21
　　有,lucene會(huì )在下面提到,lucene應該屬于index engine部分的東西.
╃(Chris-- 20:00:27
　　就是中間的這部分.
wuyu- 20:00:36
　　lucene只是chris講的搜索引擎的一部分，負責全文檢索，而且lucene的切分詞是采用自動(dòng)
　　切分詞技術(shù)的
　　
　　
　　
　　
　　
　　
wuyu- 20:00:57
　　還是從crawler開(kāi)始吧，不打岔了
╃(Chris-- 20:01:13
　　好,wuyu的問(wèn)題很好,一會(huì )我們再討論一下分詞這個(gè)東西.
╃(Chris-- 20:02:27
　　繼續crawler的關(guān)鍵技術(shù):
　　
　　1.分布式,多線(xiàn)程抓取.任務(wù)的調度問(wèn)題. 因為對于成千上萬(wàn)的網(wǎng)頁(yè), 如何不重復抓取, 又
　　不漏掉重要站點(diǎn), 是一個(gè)很關(guān)鍵的問(wèn)題. 這里需要一個(gè)好的分布式算法，一個(gè)很好的任務(wù)
　　調度機制。
　　
　　
╃(Chris-- 20:03:17
　　具體的算法,這里就不聊了,每個(gè)算法都可以開(kāi)一個(gè)專(zhuān)題來(lái)討論的,呵呵.
crane- 20:03:23
　　支持打岔
朱世杰℡- 20:03:39
　　能不能提一下那些算法
朱世杰℡- 20:04:34
　　INTRO即可
charbee- 20:05:49
　　lucene的最新版支持中文了嗎？
wuyu- 20:06:01
　　先整體介紹吧，對各部分的著(zhù)重點(diǎn)提一下，最后大家再對具體的某些點(diǎn)做提問(wèn)，畢竟搜索
　　引擎每一部分都可以開(kāi)一大個(gè)專(zhuān)題來(lái)討論，在一個(gè)細節上陷進(jìn)去就難出來(lái)了
╃(Chris-- 20:06:02
　　算法,沒(méi)有固定的名字,因為這是一個(gè)特殊的領(lǐng)域,但是對于調度算法的研究,會(huì )基于傳統的
　　分布式調度算法來(lái)進(jìn)行.
KIKI- 20:06:18
　　不支持吧,weblucene支持,也是開(kāi)源項目
charbee- 20:06:42
　　車(chē)東的開(kāi)源，我知道。環(huán)境架不起來(lái)。
wuyu- 20:06:44
　　看吧，一扯就扯遠了吧。讓chris繼續吧
╃(Chris-- 20:07:19
　　繼續crawler的關(guān)鍵技術(shù):
　　2.網(wǎng)頁(yè)重要性的評估, 這個(gè)很重要,因為crawler不會(huì )把所有網(wǎng)頁(yè)都抓下來(lái),只會(huì )抓20%的網(wǎng)
　　頁(yè)下來(lái),所以必須評估網(wǎng)頁(yè)的重要性,如何評估就顯得很重要.
╃(Chris-- 20:07:48
　　一般,評估技術(shù)會(huì )用到page rank算法.這是google發(fā)明的算法.
╃(Chris-- 20:08:11
　　Pagerank這里就不介紹的太詳細了，大家google一下有很多介紹的。大概說(shuō)一下，就是通
　　過(guò)指向頁(yè)面A的鏈接數量和權重來(lái)判斷頁(yè)面A的rank 值。Matrix的page rank是5.0，是一個(gè)
　　中等的得分
╃(Chris-- 20:09:29
　　繼續crawler的關(guān)鍵技術(shù):
refresh policy-. 因為網(wǎng)頁(yè)抓下來(lái)之后，每經(jīng)過(guò)一段時(shí)間，crawler都必須更
　　新網(wǎng)頁(yè)，從而保證索引的網(wǎng)頁(yè)是最新的網(wǎng)頁(yè)。最簡(jiǎn)單的更新策略就是把所有網(wǎng)頁(yè)重新下載
　　一次，但是這個(gè)耗費的時(shí)間起碼是一個(gè)月，是heavy cost,不能被接受。所以，一個(gè)優(yōu)秀的
　　更新算法是一個(gè)crawler的根本。
╃(Chris-- 20:10:41
　　繼續crawler的關(guān)鍵技術(shù):
　　4.壓縮算法,Crawler抓下來(lái)的東西，會(huì )分布式的存儲在本地。一般來(lái)講，因為數據量的龐
　　大，所以這里的存儲會(huì )有一個(gè)壓縮機制，從來(lái)減少總的存儲容量。包括將來(lái)在各個(gè)數據服
　　務(wù)器之間傳輸數據，都是需要一個(gè)優(yōu)秀的壓縮算法，從來(lái)減少通訊帶來(lái)的帶寬負擔。
╃(Chris-- 20:11:10
　　關(guān)于crawler的介紹就完了,大家自由提問(wèn)吧.提問(wèn)完我們進(jìn)入index engine
base- 20:11:26
　　1. 分布式的運算方式
　　2. 效率問(wèn)題
　　3. 切詞
　　4. 相似性分析
　　5. 如何緩存等等
　　
　　請簡(jiǎn)述一下先，謝謝
　　偶列的可能沒(méi)有重點(diǎn)，請指教，偶關(guān)心相似性分析部分
base- 20:11:32
　　哦，這是剛才打的
真神- 20:12:13
　　google的pr值是針對性每個(gè)網(wǎng)頁(yè)還是一個(gè)網(wǎng)站?
base- 20:12:24
　　1. 你說(shuō)的是算法
　　2. 應該就是相似性分析部分
　　3和4應該屬于緩存和更新部分的吧
crane- 20:12:27
　　關(guān)心多線(xiàn)程的檢索方式
╃(Chris-- 20:12:28
　　一個(gè)一個(gè)來(lái),我先回答base的問(wèn)題,ok?
base- 20:12:37
　　
╃(Chris-- 20:14:03
　　base的問(wèn)題:
　　1.分布式的運算方式? 這個(gè)主要就是任務(wù)調度的算法問(wèn)題,就是如何分配任務(wù). 比如,一個(gè)
　　很簡(jiǎn)單的分布式,就是一個(gè)線(xiàn)程下載一個(gè)網(wǎng)站,一臺服務(wù)器處理一個(gè)ip段.
╃(Chris-- 20:14:55
　　2.效率問(wèn)題? crawler目前來(lái)講,google跑完一次需要3個(gè)月,所以每隔一段時(shí)間google會(huì )
　　dance一次,就是重新整理索引.
base- 20:15:41
　　1. 這里面，如果某些服務(wù)器出現問(wèn)題的時(shí)候怎么辦？
　　2. GOOGLE是如何存放數據的，DBMS？
base- 20:15:59
　　哦，我應該了解下crawler先
╃(Chris-- 20:16:25
　　1. 有備份機制,如何備份不得而知. 2.自己定義的格式存儲,比如txt,非dbms,肯定不是.
~~>.<~~- 20:17:03
　　為什么不用dbms？
　　
base- 20:17:05
　　是DBMS是不行的，文本方式？大約可以知道是怎么存放的了
╃(Chris-- 20:17:40
　　3.切詞, 這個(gè)是中國搜索引擎的特色. 一般來(lái)講,切詞輸入nlp的領(lǐng)域,引入了nlp的話(huà),會(huì )提
　　高檢索效率,但是nlp是一個(gè)世紀難題,baidu解決得效果我看大家也能看得到.
╃(Chris-- 20:17:47
　　google沒(méi)有切詞這個(gè)概念
╃(Chris-- 20:18:04
　　4,5 屬于檢索引擎得東西,我們下面在談.
╃(Chris-- 20:18:17
　　next,真神得問(wèn)題?
真神- 20:18:35
　　google的pr值是針對每個(gè)網(wǎng)頁(yè)還是一個(gè)網(wǎng)站?
base- 20:18:36
　　切詞是剛才聽(tīng)到的，呵呵
╃(Chris-- 20:18:50
　　pr值是對每個(gè)網(wǎng)頁(yè).
base- 20:19:04
　　在語(yǔ)義分析的時(shí)候會(huì )有
╃(Chris-- 20:19:05
　　page rank,顧名思義,是page
╃(Chris-- 20:19:35
　　對,繞開(kāi)語(yǔ)義是必須得,google完全繞開(kāi)了語(yǔ)義.
冰云- 20:19:36
　　就是說(shuō)，我和pr高的page做鏈接我的pr也會(huì )提高
╃(Chris-- 20:20:08
　　冰云說(shuō)得對,這個(gè)非常明顯
╃(Chris-- 20:20:30
　　但是也要和對方給出來(lái)得連接數量有關(guān)
陸地孤帆- 20:21:06
　　我想問(wèn)一下跨語(yǔ)言跨字符集的搜索怎么實(shí)現的？
　　比如我們輸入中文，卻能查到行相似關(guān)鍵字的繁體中文，甚至日問(wèn)韓問(wèn)資料？
base- 20:21:15
　　對,繞開(kāi)語(yǔ)義是必須得,google完全繞開(kāi)了語(yǔ)義.
　　
　　但是這樣一來(lái)，只是關(guān)鍵字分析的話(huà)，那么相似性分析就會(huì )有很大偏差了
╃(Chris-- 20:22:05
　　但是效果來(lái)看,google并不差,實(shí)際上全文檢索引擎+page rank可以做得很好. 語(yǔ)義并不是
　　想象中那么容易處理. 往往1%得誤差,會(huì )造成10%的錯誤放大.
base- 20:22:40
　　當然，語(yǔ)義分析到現在也解決的不好，很難
╃(Chris-- 20:23:21
　　跨語(yǔ)言,跨字符集. 這個(gè)有一個(gè)翻譯的對應詞典. 會(huì )在索引階段就處理這個(gè)問(wèn)題. 比如簡(jiǎn)體
　　和繁體的對應. 但是google沒(méi)有做簡(jiǎn)體對英文的對應,因為這是屬于機器翻譯的問(wèn)題,而不
　　是簡(jiǎn)單的對應問(wèn)題.
冰云- 20:23:55
　　不是通過(guò)unicode么？
base- 20:24:13
　　page rank+全文檢索，這個(gè)問(wèn)題需要討論一下，有點(diǎn)不清楚
╃(Chris-- 20:24:27
　　對,簡(jiǎn)體,繁體,可以通過(guò)unicode
╃(Chris-- 20:25:00
　　但是which unicode對應which unicode 還是應該有個(gè)對應.
農民 - Javen- 20:25:41
　　還有沒(méi)有回答的：
　　
crane- 20:12:27
　　關(guān)心多線(xiàn)程的檢索方式
╃(Chris-- 20:25:48
　　google的本質(zhì)是全文索引+page rank. 沒(méi)有語(yǔ)義,沒(méi)有分詞. 但是效果很不錯.
╃(Chris-- 20:26:10
　　crane,能把問(wèn)題說(shuō)清楚些么? 多線(xiàn)程的檢索方式?
╃(Chris-- 20:26:34
　　你是問(wèn)多用戶(hù)并發(fā)檢索的情況如何處理?
crane- 20:26:49
　　就是多線(xiàn)程如何處理不重復
crane- 20:27:05
　　如何保證不重復檢索網(wǎng)頁(yè)
crane- 20:27:36
　　我曾經(jīng)做過(guò)爬網(wǎng)站的程序，這個(gè)是我遇到的最復雜的問(wèn)題
╃(Chris-- 20:27:59
　　應該是crawler如何不重復下載網(wǎng)頁(yè)吧?最簡(jiǎn)單的方法,就是我前面提到的:
　　比如,一個(gè)很簡(jiǎn)單的分布式,就是一個(gè)線(xiàn)程下載一個(gè)網(wǎng)站,一臺服務(wù)器處理一個(gè)ip段.
　　
　　
╃(Chris-- 20:28:42
　　具體,如果是在一個(gè)網(wǎng)站也采用多線(xiàn)程處理,那么實(shí)現方式上來(lái)講,會(huì )有一個(gè)隊列,來(lái)存儲已
　　經(jīng)處理過(guò)的頁(yè)面. 然后新處理的頁(yè)面要比較一下隊列里的頁(yè)面.
農民 - Javen- 20:28:52
　　但 matrix 會(huì )同時(shí)有上千個(gè) google 線(xiàn)程來(lái) dance
╃(Chris-- 20:29:07
　　對,上面講到了解決方法.
╃(Chris-- 20:29:14
　　會(huì )有一個(gè)隊列.
crane- 20:29:25
　　一個(gè)線(xiàn)程下載一個(gè)網(wǎng)站，我倒，因為我這個(gè)程序是就一個(gè)機器，我的PC
crane- 20:29:36
　　有沒(méi)有其他的辦法
crane- 20:29:59
　　算法推薦也好
base- 20:30:03
　　就是一個(gè)網(wǎng)段一個(gè)網(wǎng)段的排吧
base- 20:30:10
　　不會(huì )重復網(wǎng)站了
╃(Chris-- 20:30:16
　　如果是n個(gè)線(xiàn)程處理一個(gè)網(wǎng)站,那么就是我上面提到的方法啊.
╃(Chris-- 20:30:27
　　會(huì )有一個(gè)隊列,來(lái)存儲已經(jīng)處理過(guò)的頁(yè)面. 然后新處理的頁(yè)面要比較一下隊列里的頁(yè)面.
　　
　　
　　
╃(Chris-- 20:30:36
　　所有線(xiàn)程共享這個(gè)隊列.
╃(Chris-- 20:30:43
　　這是最簡(jiǎn)單的方法.
crane- 20:31:03
　　哦，明白了，謝謝
╃(Chris-- 20:31:05
　　在n個(gè)線(xiàn)程處理一個(gè)網(wǎng)站,當然也可以有一些更聰明的調度方法,
╃(Chris-- 20:31:24
　　具體以后再聊聊.
╃(Chris-- 20:31:29
　　還有其他問(wèn)題么?
crane- 20:31:33
　　更聰明的是什么，剛才你說(shuō)的一個(gè)隊列和我的想法是一樣的價(jià)值不大
冰云- 20:31:42
　　pr這東西對個(gè)人網(wǎng)站到底有沒(méi)有意義呢？
base- 20:32:03
　　以前偶查東西的時(shí)候是IP段來(lái)，一個(gè)IP一個(gè)IP的來(lái)過(guò)
crane- 20:32:08
　　更聰明算法的我以后找你可以么
╃(Chris-- 20:32:19
　　價(jià)值不大?但是你必須實(shí)現啊. 其他算法以后我們可以探討一下.
╃(Chris-- 20:32:38
　　pr值我覺(jué)得還是挺重要,起碼再google排名上氣的是關(guān)鍵性的作用.
冰云- 20:32:56
　　左邊的排名是排的PR?
base- 20:32:58
　　我還是不明白，page rank + 全文檢索，如何處理的相似性問(wèn)題，就是重要性問(wèn)題，舉個(gè)
　　例子如何？
╃(Chris-- 20:33:07
　　google帶來(lái)的訪(fǎng)問(wèn)量,目前來(lái)講是在60%以上.
農民 - Javen- 20:33:56
　　我們在同一個(gè)數據庫里檢索數據都要考慮速度問(wèn)題，google 是怎么樣保證他的檢索速度的？
　　同一個(gè)關(guān)鍵詞的搜索，他需要從 N 個(gè)服務(wù)器上去拿數據，而且上面說(shuō)到的，可能是打開(kāi)文
　　本文件來(lái)獲得數據。
方片- 20:34:14
　　為什么在GOOGLE中搜索，當你翻了很多頁(yè)時(shí)會(huì )經(jīng)常出現重復的頁(yè)面鏈接？
╃(Chris-- 20:34:25
　　base,可以看看page rank算法.
base- 20:35:03
　　哦，謝謝，偶去望一下
charbee- 20:35:18
　　weblucene怎么用呀？
郁也風(fēng)- 20:36:00

base- 20:36:12
　　you can use English,haha....
╃(Chris-- 20:36:12
　　javen,這個(gè)就是分布式全文索引的效率問(wèn)題,效率上來(lái)講,這個(gè)會(huì )很迅速,特別是海量數據的
　　處理上,會(huì )比傳統的數據庫快n倍.對google來(lái)講,檢索一次,也就是讀幾個(gè)文件,本地傳輸2次
　　數據.速度完全可以保證
郁也風(fēng)- 20:36:33
　　English is my weakest link
╃(Chris-- 20:36:44
　　charbee,weblucene我沒(méi)有用過(guò),希望下次我們可以把車(chē)東請過(guò)來(lái)給大家講講這個(gè)東西,呵呵.
　　javen可以聯(lián)系一下
base- 20:37:01
　　try Wan neng Wubi :)
crane- 20:37:16
　　嘩~~~~ 鼓掌~~
郁也風(fēng)- 20:37:23
　　welcome:)
charbee- 20:37:29
　　好，
阿古- 20:37:36
　　鼓掌！
拓拔濤- 20:37:36
　　
冰云- 20:37:43
　　車(chē)東現在在美國培訓
KIKI- 20:37:45
　　
Server- 20:37:46
　　em14
base- 20:37:52
　　
農民 - Javen- 20:38:01
　　檢索一次,也就是讀幾個(gè)文件,本地傳輸2次數據.
　　
　　這個(gè)可以細化一下？？？
Server- 20:38:03
　　em13
charbee- 20:38:14
　　lucene呢，講講原碼核心部分也好。
╃(Chris-- 20:38:17
　　javen,這個(gè)和google的具體索引實(shí)現有關(guān).
農民 - Javen- 20:38:27
　　警告： base Server
　　
　　不要發(fā)這種東西。   否則立馬清除！
base- 20:38:36
　　
真神- 20:38:40
　　這個(gè)是否是index engine部分的內容了?
╃(Chris-- 20:38:46
　　lucene源碼核心我也想講講,但是時(shí)間不是很允許.
╃(Chris-- 20:38:56
　　對,下面我們講講index engine
charbee- 20:39:04
　　呵呵，好。
crane- 20:39:06
　　lucene源碼核心放到最后講如何
charbee- 20:39:11
　　好。
crane- 20:39:17
　　好
╃(Chris-- 20:39:30
　　現在已經(jīng)快一個(gè)小時(shí)了,我得手要斷了,哈哈
charbee- 20:39:44
　　page rank 還沒(méi)有講完，我的一個(gè)普通網(wǎng)頁(yè)的網(wǎng)站，怎么提高page rank
農民 - Javen- 20:39:51
　　要不休息一會(huì )兒吧。大家自由聊聊。
crane- 20:39:52
　　挑戰體能極限，我們都支持你
crane- 20:40:05
　　好哈，休息
郁也風(fēng)- 20:40:07

╃(Chris-- 20:40:14
　　charbee:
　　1. 找盡量多的網(wǎng)頁(yè)為你做鏈接指向你.
KIKI- 20:40:17
　　吃塊瓜,
農民 - Javen- 20:40:22
　　charbee :   這個(gè)倒是個(gè)實(shí)在的問(wèn)題啊。
　　
　　我的 blog 今天看到了 3 了。哈哈
charbee- 20:40:42
　　呵呵。
冰云- 20:40:45
　　我之前是5，現在下降到4，估計和我有情鏈接增多有關(guān)
郁也風(fēng)- 20:40:45
　　my pr value is zero
crane- 20:41:05
　　怎么看5 3呀
冰云- 20:41:10
　　google bar
charbee- 20:41:10
　　我的也是0
crane- 20:41:14
　　pr指數在哪里看？
╃(Chris-- 20:41:20
　　增多是不會(huì )減少pr的. pr只和指向你的鏈接有關(guān).
郁也風(fēng)- 20:41:20
　　my link‘s type is ?abc=***
╃(Chris-- 20:41:31
　　下載一個(gè)google的bar就可以看到
　　
　　
　　
╃(Chris-- 20:42:52
　　下面我們繼續index engine
crane- 20:43:10
　　好，謝謝
charbee- 20:43:25
　　農民我的blog玩不了了：
　　http://www.matrix.org.cn/blog/char/
charbee- 20:43:46
　　繼續 index engine
　　好像lucene就是用 index engine
╃(Chris-- 20:44:09
　　東西抓下來(lái)之后，除了存儲起來(lái)，就是要進(jìn)行索引了，這就是Index engine要做的事情。
　　這里我們的索引都是指完全的全文索引，而不是只對字的索引，或者只對詞的索引。有些
　　國內的檢索引擎是對字的索引或者對詞的索引，或者兩者的結合。
KIKI- 20:44:11
　　好像也有search engine吧?
╃(Chris-- 20:44:48
　　其實(shí)，我們平時(shí)用的lucene就是一個(gè)索引引擎，但是不支持分布式。而且，索引壓縮算法
　　還有其他方面還存在一些問(wèn)題不適合大型搜索引擎使用，但是對于一般通常的應用來(lái)講應
　　該是沒(méi)有什么問(wèn)題。
╃(Chris-- 20:45:39
　　關(guān)于index engine，有幾個(gè)問(wèn)題比較關(guān)鍵：
╃(Chris-- 20:46:30
　　1．一般來(lái)講，因為數據量是很大，所以索引的容量也會(huì )很大，一般來(lái)講，數據量和索引量
　　的比例會(huì )是1：1。所以，索引的存儲也會(huì )是分布式的。比如google，用來(lái)存儲索引的服務(wù)
　　器大概有1000多臺。google用的是什么算法是沒(méi)有公布，起碼我是沒(méi)有找到。最簡(jiǎn)單的索
　　引就是倒排索引,lucene就是用的這個(gè).
╃(Chris-- 20:48:51
　　2．Index engine 必須支持增量索引，而且增量索引速度應該很快。這個(gè)問(wèn)題，通常的解
　　決方法，是為新增的數據新建一個(gè)新的索引塊，然后在一定時(shí)間，將這個(gè)新的索引塊并入
　　舊的索引塊。比如lucene里就是這么做的。
╃(Chris-- 20:50:55
　　3．索引有一個(gè)壓縮的問(wèn)題，因為通常數據量和索引量的比例會(huì )是1：1，如果壓縮算法做的
　　比較好的話(huà)，應該可以得到更好的一個(gè)比例。lucene這方面做的比較一般.
╃(Chris-- 20:51:29
　　4.還有就是多語(yǔ)言的問(wèn)題,索引必須支持多語(yǔ)言.現在unicode可以很好的解決這個(gè)問(wèn)題
╃(Chris-- 20:52:55
　　5.索引的結構還必須為檢索,相似性分析,等等提供良好的計算接口.比如google和baidu的
　　類(lèi)似網(wǎng)頁(yè),為了很快找到類(lèi)似網(wǎng)頁(yè),這些數據也必須放到索引里面去.
╃(Chris-- 20:53:57
　　6.當然,支持doc,excel,ps 等多種文件格式,這個(gè)是基本的東西了
　　
Join- 20:54:19
　　怎么把數據放入索引哦？
　　
Join- 20:54:27
　　添加索引？？
╃(Chris-- 20:54:29
　　就是通過(guò)索引引擎.
Join- 20:54:44
　　沒(méi)聽(tīng)過(guò)
╃(Chris-- 20:54:56
　　數據下載下來(lái),出發(fā)索引引擎,索引引擎分析數據,添加到索引庫.
╃(Chris-- 20:55:48
　　index engine 介紹完了.大家自己提問(wèn)
╃(Chris-- 20:55:52
　　自由提問(wèn)
方片- 20:57:51
　　時(shí)間太短，講的東西太深，聽(tīng)不大懂，Chris能不能花點(diǎn)時(shí)間將今天的講座整理成一篇文檔，
　　以便慢慢學(xué)習啊
農民 - Javen- 20:58:11
　　坦率地說(shuō)，我沒(méi)有太明白“全文”索引的意思。對象不是字、詞，是全文？
　　
　　一般意義上的索引對象都是關(guān)鍵字。
╃(Chris-- 20:58:15
　　呵呵.好啊.完了會(huì )整理放到網(wǎng)上.
阿古- 20:58:23
　　就是阿
　　感覺(jué)很復雜
　　很多算法沒(méi)有接觸到
農民 - Javen- 20:58:34
　　我會(huì )整理好記錄的。我已經(jīng)在整理了。   會(huì )完后馬上可以放到網(wǎng)絡(luò )上。
charbee- 20:58:54
　　最好有實(shí)際點(diǎn)的東西比較好，有這樣有什么好，沒(méi)有這樣有什么好。
crane- 20:58:55
　　是哈，這個(gè)東西太深了，而且涉及的方面可真多
KIKI- 20:59:01
　　主要是沒(méi)學(xué)過(guò)九陽(yáng)神功,要不小KS
╃(Chris-- 20:59:07
　　對,全文檢索不是對關(guān)鍵字,是對全文.
　　比如"我是中國人",檢索"是中",也可以檢索到就是全文檢索
郁也風(fēng)- 20:59:25

base- 20:59:34
　　這里應該是page rank的內容了吧？
阿古- 20:59:45
　　你可以寫(xiě)拼音嘛１
base- 20:59:49
　　you can download the 萬(wàn)能五筆
wuyu- 20:59:52
　　能不能再介紹一下索引中的分詞處理，比如中文同義詞處理？
郁也風(fēng)- 21:00:24
　　I‘m downloading MS ime,76MB
wuyu- 21:00:25
　　如果搜“毛主席”，帶著(zhù)“毛澤東”、“毛潤芝”之類(lèi)的信息也能檢索出來(lái)？
crane- 21:00:28
　　Chris 隨便找個(gè)你認為最有價(jià)值的方面，詳細講講吧
╃(Chris-- 21:00:41
　　google對索引,不會(huì )做分詞處理的.所以不會(huì )對同義詞進(jìn)行處理. baidu會(huì )做處理.
base- 21:00:52
　　萬(wàn)能五筆 is little, just less than 5M
墮入凡間的雨- 21:01:13
　　這樣的處理豈不是很復雜
crane- 21:01:24
　　google現在能處理拼音了
wuyu- 21:01:31
　　是啊，baidu、trs、慧聰之類(lèi)的國內廠(chǎng)商所吹的，也就是基于漢語(yǔ)言的切分詞技術(shù)
wuyu- 21:01:58
　　中文切分詞過(guò)程大致的原理？
crane- 21:02:00
　　trs 不是國內的吧
wuyu- 21:02:11
　　國內的，易寶嘛
╃(Chris-- 21:02:13
　　trs是港資的,但是主力是國內的
╃(Chris-- 21:02:24
　　北京信息工程學(xué)院的
charbee- 21:02:34
　　Chris，你在trs做嗎？
╃(Chris-- 21:02:40
　　慧聰嗎,呵呵..我呆過(guò)一段時(shí)間.
wuyu- 21:02:49
　　呵，主要是trs比較便宜，好象trs server才8萬(wàn)。
╃(Chris-- 21:02:57
　　不在trs啊? 這個(gè)不是我的專(zhuān)業(yè),只是我的愛(ài)好.
crane- 21:04:36
　　基于漢語(yǔ)言的切分詞技術(shù)，    維護同義詞字典？
wuyu- 21:04:47
　　慧聰吹的有一個(gè)東西是內嵌在關(guān)系數據庫內的全文，trs、百毒、lucene都是另起專(zhuān)門(mén)的全
　　文庫，這兩種方式有什么優(yōu)缺點(diǎn)？
農民 - Javen- 21:05:20
　　因為 google 根本不去管什么分詞、語(yǔ)義，而 baidu 、慧聰什么的在玩一點(diǎn)，所以說(shuō)他們
　　技術(shù)比 google 高，說(shuō)什么第三代、第四代搜索技術(shù)？
bill-過(guò)兒- 21:06:05
　　感謝！我來(lái)晚了！
base- 21:06:22
　　唉，語(yǔ)義分析，
KIKI- 21:06:27
　　暈,現在才來(lái)?
農民 - Javen- 21:06:36
　　感謝大家支持！
　　
　　1、自由發(fā)言：大家悠著(zhù)點(diǎn)，不要太著(zhù)急啊。剛開(kāi)始請盡量由主講發(fā)言吧；
　　
　　2、一點(diǎn)限制：主講人與管理員的字體顏色為紅色，請大家使用黑色或者藍色，并且請大家
　　字體不要超過(guò)5號；
crane- 21:06:46
　　自然語(yǔ)言語(yǔ)義分析可有的玩了
wuyu- 21:06:49
　　我是覺(jué)得中文切分詞很關(guān)鍵啊，如果用lucene的自動(dòng)切分詞，能夠滿(mǎn)足“查全”的要求，
　　但是實(shí)際應用中，更加需要“查準”啊，你出一萬(wàn)條垃圾信息還不如出一條用得著(zhù)的信息好
bill-過(guò)兒- 21:07:25
　　是啊，聚了一下會(huì )！
╃(Chris-- 21:07:29
information retrieval-的技術(shù)會(huì )越來(lái)越多的應用到搜索引擎里面.比如,排重,
　　相似性分析,用戶(hù)愛(ài)好分析,問(wèn)題回答性質(zhì).等等. 但是,這都要以一定的準確性為基礎,如果
　　技術(shù)不成熟,就只能是放在實(shí)驗室的產(chǎn)品.
charbee- 21:07:29
　　有沒(méi)有實(shí)用點(diǎn)的技巧？
crane- 21:07:33
　　切分詞技術(shù) 方便解釋一下么
郁也風(fēng)- 21:08:00
　　切分詞? I‘m late, what is 切分詞?wuyu?
bill-過(guò)兒- 21:08:22
　　繼續
charbee- 21:08:28
　　車(chē)東有篇文章講切分詞。
wuyu- 21:08:32
　　郁也風(fēng)，拆分為“郁也”“也風(fēng)”，lucene就是用這種自動(dòng)切分詞手段的，兩字兩字一切分。
crane- 21:08:45
　　哦，明白了，謝謝
郁也風(fēng)- 21:08:57
　　i see:)
wuyu- 21:09:31
　　英文好切分，見(jiàn)空白符就切成word了，中文就沒(méi)邊界。"this is"，明顯的兩個(gè)詞，但是
　　“郁也風(fēng)”，你讓計算機去判斷判斷用了幾個(gè)詞？
crane- 21:09:40
　　我想，應該切分有意義的詞吧
╃(Chris-- 21:09:46
　　切分詞,對英文是不存在這個(gè)分詞的問(wèn)題,因為空格就是英文單詞的分隔符..
　　但是中文就有,比如 "我馬上從馬上下來(lái)",計算機存在識別困難. 現在,通過(guò)一定的技術(shù),基
　　于語(yǔ)料庫,可以達到比較好的效果.
crane- 21:10:07
　　哈哈，這個(gè)例子好玩
墮入凡間的雨- 21:10:29
　　語(yǔ)料庫是什么？
crane- 21:10:33
　　語(yǔ)料庫是什么，不只是詞典吧，還有什么
base- 21:10:37
　　又到了語(yǔ)義分析上了，唉，誰(shuí)能三言?xún)烧Z(yǔ)說(shuō)明白，老朽會(huì )佩服死去活來(lái)的
bill-過(guò)兒- 21:11:02
　　對不起噢！
　　
charbee- 21:11:09
　　http://www.chedong.com/tech/lucene.html#segment
Word Segment-
bill-過(guò)兒- 21:11:13
　　可以了
╃(Chris-- 21:11:16
　　語(yǔ)料庫是一些,已經(jīng)處理好的標注文章, 比如把人民日報2年的文章分詞標注好. 然后基于
　　這個(gè)語(yǔ)料庫來(lái)處理分詞.
bill-過(guò)兒- 21:11:25
　　調整好了
crane- 21:11:29
　　這么智能呀
╃(Chris-- 21:11:41
　　語(yǔ)料庫是手動(dòng)做的.
base- 21:11:49
　　這個(gè)查詢(xún)數據量，大了去了，有什么相關(guān)算法？
crane- 21:11:59
　　想當于先給機器人學(xué)知識，然后他去做舉一反三的工作？
╃(Chris-- 21:11:59
　　這個(gè)建索引,速度還不錯.
╃(Chris-- 21:12:06
　　crane說(shuō)對了
crane- 21:12:41
　　哇，太夸張了，現在的技術(shù)可真厲害，估計性能是個(gè)不小的問(wèn)題
base- 21:12:45
　　呵呵
墮入凡間的雨- 21:13:18
　　也就是將常用詞語(yǔ)做庫！然后在語(yǔ)法切分時(shí)根據庫做比較？
真神- 21:13:32
　　這個(gè)深入下去估計是AI方面的內容了
base- 21:13:42
　　不用深入，已經(jīng)是了
╃(Chris-- 21:13:46
　　不僅僅這么簡(jiǎn)單,是對一些文章進(jìn)行分詞并進(jìn)行詞性標注.
╃(Chris-- 21:14:10
　　先手動(dòng)做,然后讓機器在這個(gè)基礎上對其他文章自動(dòng)分詞
墮入凡間的雨- 21:14:41
　　也就是叫機器去讀文章！
╃(Chris-- 21:14:46
　　對.
╃(Chris-- 21:14:58
　　這些都是ir,nlp范疇的東西,呵呵
真神- 21:15:29
　　說(shuō)到這里我想起電影《AI》里小機器人去游樂(lè )場(chǎng)問(wèn)問(wèn)題那一幕
╃(Chris-- 21:15:32
　　所以說(shuō),搜索引擎是一項非常豐富的技術(shù).會(huì )牽涉很多領(lǐng)域

╃(Chris-- 21:15:45
　　下面我們繼續 search engine
　　
墮入凡間的雨- 21:16:05
　　如果庫的文件不是很大，倒是為未來(lái)的電腦語(yǔ)音系統提供了很好的內容
農民 - Javen- 21:16:48
　　第三個(gè)部分內容：
base- 21:16:52
　　如果語(yǔ)義分析解決了，不是領(lǐng)域問(wèn)題，是對人類(lèi)的一大貢獻哦
╃(Chris-- 21:17:13
　　索引建好之后,就是為了search 服務(wù)了.
　　通常流程是這樣的,用戶(hù)發(fā)出請求 <-> search engine<-> index server
╃(Chris-- 21:18:06
　　對于檢索引擎,search engine,有以下關(guān)鍵問(wèn)題:
　　1. 檢索結果的排序問(wèn)題,這個(gè)其實(shí)前面的page rank做了很多鋪墊的
╃(Chris-- 21:18:58
　　一些新的嘗試,比如對用戶(hù)偏好的分析之類(lèi)的,都可以運用在這里,對不同偏好的用戶(hù)采用不
　　同的排序策略
╃(Chris-- 21:19:37
　　2.檢索結果的排重問(wèn)題,就是排除重復的結果.這個(gè)算法很重要,因為不僅是準確性的問(wèn)題,
　　還有就是速度問(wèn)題.
╃(Chris-- 21:20:06
　　3.檢索結果的相似性分析問(wèn)題,這個(gè)和上面的為那提比較類(lèi)似. 主要用在類(lèi)似網(wǎng)頁(yè) 里面
╃(Chris-- 21:21:04
　　4.檢索的速度問(wèn)題.這個(gè)主要是靠前面的索引結構決定.當然,很多技術(shù)可以用來(lái)提升速度,
　　比如分布式cache
╃(Chris-- 21:21:23
　　大概就這么幾個(gè)問(wèn)題..
╃(Chris-- 21:21:26
　　大家自由發(fā)言.
wuyu- 21:21:52
　　能不能講講二次檢索？
crane- 21:22:06
　　感覺(jué) 問(wèn)題好象應該在入倉的時(shí)候就該解決
crane- 21:22:15
　　感覺(jué) 排重問(wèn)題好象應該在入倉的時(shí)候就該解決
╃(Chris-- 21:22:27
　　二次檢索很簡(jiǎn)單,其實(shí)就是和第一次檢索的東西作一次and
bill-過(guò)兒- 21:22:38
　　檢索結果的排重問(wèn)題,就是排除重復的結果.這個(gè)算法很重要,
　　這個(gè)要自己開(kāi)發(fā) 嗎？
╃(Chris-- 21:22:48
　　對,排重的問(wèn)題,很多會(huì )在入庫的時(shí)候解決.
wuyu- 21:22:50
　　但是二次檢索對性能的影響？一般搜索引擎是怎么處理的？
╃(Chris-- 21:23:29
　　性能影響不大...對于優(yōu)秀的搜索引擎來(lái)講,一般的布爾表達式都不會(huì )是大問(wèn)題
╃(Chris-- 21:23:54
　　二次檢索也只是為布爾表達式加了一個(gè)and
╃(Chris-- 21:24:09
　　排重當然要自己開(kāi)發(fā)拉?
wuyu- 21:24:44
"上一次的" AND 關(guān)鍵詞），然后進(jìn)行“全新”的檢索？
╃(Chris-- 21:25:16
　　這只是一種實(shí)現方式, 就是這種方式,解決起來(lái)也是完全可行的.當然,有更好的方式,比如放到cache里,然后檢索cache等.
wuyu- 21:25:21
　　我暈死，呵呵，我還一直以為采用了某些手段，比如做了cache
╃(Chris-- 21:25:57
　　呵呵.
郁也風(fēng)- 21:26:45
　　"上一次的" AND 關(guān)鍵詞-it‘s like my method:)
╃(Chris-- 21:26:59
　　呵呵
wuyu- 21:27:07
　　我是關(guān)鍵數據庫的檢索時(shí)被人逮著(zhù)問(wèn)二次檢索的，那家伙硬是把我用的trsserver提供全文和我業(yè)務(wù)后臺管理時(shí)從關(guān)系數據庫做檢索混起來(lái)，非讓我明白的告訴他支持不支持二次檢索，是怎么支持的，暈啊
農民 - Javen- 21:27:11
　　大家還有問(wèn)題嗎？    要不今天暫時(shí)到這里？
SS- 21:27:24
　　問(wèn)個(gè)問(wèn)題
SS- 21:27:35
　　比如剛才因為很多沒(méi)有看到
╃(Chris-- 21:27:42
　　wuyu,你這個(gè)問(wèn)題必須放到cache里.
農民 - Javen- 21:27:43
　　chris 應該是比較累了。呵呵。   狂敲鍵盤(pán)一個(gè)半小時(shí)了。
KIKI- 21:27:44
　　急什么?? 都這么有熱情勁兒
╃(Chris-- 21:27:52
　　哈哈
JAVA神化- 21:27:58
　　
SS- 21:27:59
　　比如我檢索一個(gè)條件是 xx=123 and test=234
bill-過(guò)兒- 21:28:04
　　唉！我還沒(méi)聽(tīng)夠那！
SS- 21:28:07
　　一般做法是不是分2次檢索
JAVA神化- 21:28:09
　　
charbee- 21:28:11
　　呵呵。我們要考慮怎么把技術(shù)變成實(shí)用。
crane- 21:28:19
　　一般的大型企業(yè)應用系統中，哪些地方可以用到Lucene呢
SS- 21:28:29
　　先檢索出xx=123然后在結果集中test=234
╃(Chris-- 21:28:39
　　ss,這個(gè)要看索引結構,如果索引結構好,不用兩次檢索,可以一次掃描就解決
wuyu- 21:28:40
　　我是含糊過(guò)的，反正我關(guān)系數據庫的檢索是根據我定義的Filter做了cache，而他們大量用
　　檢索的時(shí)候是跑我trs server來(lái)檢索的，懶得理他，呵呵
crane- 21:29:35
　　學(xué)了這么多，手癢癢，想用用，在哪里能用這些技術(shù)
charbee- 21:29:55
　　好呀。最好能有些效果可以看看
墮入凡間的雨- 21:30:04
　　資源系統里面較為常用
╃(Chris-- 21:30:28
　　開(kāi)發(fā)搜索引擎的時(shí)候,或者處理海量數據的時(shí)候.
墮入凡間的雨- 21:30:38
　　而且資源系統中的數據量一般也是比較大的
╃(Chris-- 21:31:09
　　搜索引擎也會(huì )是將來(lái)的一個(gè)方向,專(zhuān)業(yè)化,個(gè)性化的搜索引擎
crane- 21:31:14
　　感覺(jué) 搜索引擎是非常有錢(qián)途的東東
KIKI- 21:31:31
　　呵呵,沒(méi)錢(qián)途誰(shuí)學(xué)呀
wuyu- 21:31:49
　　我這邊更多的應用是從關(guān)系數據庫的數據導入全文庫，然后再提供出來(lái)做檢索。
　　
　　不過(guò)有一個(gè)問(wèn)題很煩，就是關(guān)系數據庫（或是google的某個(gè)網(wǎng)頁(yè)）做了變更、刪除以后全
　　文庫的同步問(wèn)題？
　　1、是更新后立即刷新全文完成同步，還是通過(guò)定時(shí)任務(wù)進(jìn)行同步？
　　2、如果是定時(shí)任務(wù)，是增量更新方式來(lái)完成同步，還是完全復制的同步？
bill-過(guò)兒- 21:31:49
　　
╃(Chris-- 21:31:51
　　對,前段時(shí)間萬(wàn)網(wǎng)老總就做了一次秀,關(guān)于搜索引擎
crane- 21:32:01
　　以前是信息就是金錢(qián)，現在是信息太多，摘得出來(lái)才是金錢(qián)
阿古- 21:32:21
　　嗯　
墮入凡間的雨- 21:32:27
　　還有個(gè)問(wèn)題，如果使用存儲過(guò)程，在查詢(xún)速度上會(huì )有很大的提升，但是如果考慮跨平臺的
　　使用，使用SQL語(yǔ)法有什么好的建議
SS- 21:32:50
　　要看是什么系統了
wuyu- 21:33:12
　　對于google來(lái)說(shuō)，原始網(wǎng)站和全文庫的不同步是可以允許的，但是對于小型應用來(lái)說(shuō)，原
　　始關(guān)系數據庫和全文庫的不同步或是同步不及時(shí)，就是很難容忍的了，嗚嗚
SS- 21:33:16
　　我覺(jué)得這種核心思想應該是夠用則可
╃(Chris-- 21:33:28
　　小型應用,我覺(jué)得立即同步刷新就行了.
SS- 21:33:28
　　就是說(shuō)如果現有的速度夠用，就不要用存儲過(guò)程
墮入凡間的雨- 21:33:42
　　資源！應該是小學(xué)到高中的全部資源或者更多
SS- 21:33:52
　　如果不夠，在需要的地方加，此時(shí)不用顧慮移植問(wèn)題
wuyu- 21:34:26
　　基于事件觸發(fā)的機制，在關(guān)系數據庫完成更新操作后立即通知全文庫做內容更新同步操作？
╃(Chris-- 21:34:39
　　對,小型應用應該這樣
墮入凡間的雨- 21:35:24
　　這一步的更新是通過(guò)觸發(fā)器來(lái)實(shí)現？？？
╃(Chris-- 21:35:44
　　是觸發(fā)機制,不是觸發(fā)器
╃(Chris-- 21:36:07
　　trigger比較局限
crane- 21:37:01
　　關(guān)于搜索引擎的未來(lái)，關(guān)于全球海量信息，會(huì )不會(huì )有這樣的問(wèn)題，就是計算機的性能發(fā)展比信息量增加的快，因為歷史資料是有限的，新的文字資料要人工寫(xiě)的
　　對于文字的檢索也許將來(lái)的性能不是問(wèn)題？??？有沒(méi)有這種可能
　　
wuyu- 21:37:05
　　事件觸發(fā)，我不一定是觸發(fā)器的，可是是對一個(gè)數據實(shí)體做一個(gè)動(dòng)作以后觸發(fā)，或是完成一系列的動(dòng)作，也就是完成一個(gè)業(yè)務(wù)處理以后做觸發(fā)
SS- 21:37:14
　　不可能的
SS- 21:37:25
　　信息的發(fā)展是爆炸性的
SS- 21:37:49
　　這是指數級別的增長(cháng)
crane- 21:37:51
　　爆炸的信息文字誰(shuí)來(lái)寫(xiě)，要人來(lái)寫(xiě)的
SS- 21:38:07
　　而計算機性能是倍數級的
SS- 21:38:13
　　很多信息不需要人工輸入的
墮入凡間的雨- 21:38:14
　　解決問(wèn)題的方式也是！
bill-過(guò)兒- 21:38:23
　　可以發(fā)明說(shuō)話(huà)轉換成字阿
crane- 21:38:30
　　什么信息不需要人工輸入呀
╃(Chris-- 21:38:34
　　呵呵,這個(gè)也沒(méi)有辦法,你必須作出一個(gè)犧牲,it is a tradeoff.
SS- 21:38:37
　　很多，比如統計數據
crane- 21:38:54
bill-過(guò)兒- 21:38:23
　　可以發(fā)明說(shuō)話(huà)轉換成字阿
　　
　　哦，對，這樣信息量就大了去了
SS- 21:39:16
　　還有比如探測器取得的信息
crane- 21:39:24
　　不過(guò)，同樣面臨著(zhù)一個(gè)問(wèn)題，一年內一個(gè)人說(shuō)話(huà)是有限的
SS- 21:39:30
　　不一定是說(shuō)話(huà)
╃(Chris-- 21:39:31
　　今天的專(zhuān)題講座到這結束吧. 我們下次再見(jiàn).多謝各位的支持.希望matrix能有更多的高手加入進(jìn)來(lái).歡迎你們.
crane- 21:39:33
　　那不是文字信息了，圖形的
wuyu- 21:39:34
"內容"-;輸出的，或者是他的“鏈接”是由js、flash等手段來(lái)控制的，這種時(shí)候，spider常見(jiàn)的處理機制？有沒(méi)有簡(jiǎn)單入門(mén)的算法？
SS- 21:39:46
　　圖形文字等等
crane- 21:39:52
　　暈，談?wù)勊阉饕娴奈磥?lái)吧
╃(Chris-- 21:40:14
　　這個(gè)是html的分析問(wèn)題,spider肯定有一個(gè)完整的html分析器.分析所有js,flash等,這個(gè)屬于program層面的東西了.呵呵.
crane- 21:40:18
　　技術(shù)，基礎，歷史，都講了，最后要談未來(lái) 然后收功的
墮入凡間的雨- 21:40:21
　　圖形可以建立索引目錄呀！
╃(Chris-- 21:40:28
　　哈哈,未來(lái)無(wú)限美好!
╃(Chris-- 21:40:31
　　收工!
冰云- 21:40:41
　　
SS- 21:40:42
　　講了2個(gè)小時(shí)了
crane- 21:40:45
　　謝謝 Chris
SS- 21:40:45
　　不錯
JAVA神化- 21:40:45
　　
拓拔濤- 21:40:46
　　
KIKI- 21:40:55
　　
wuyu- 21:40:57
　　按sun的說(shuō)法，網(wǎng)絡(luò )就是計算機，搜索就是信息。
SS- 21:40:59
　　pppppppppppppppppp
SS- 21:41:05
　　大家鼓掌
wuyu- 21:41:07
　　
wuyu- 21:41:10
　　獻花
╃(Chris-- 21:41:11
　　太累,要不今晚接著(zhù)把lucene的源碼講一遍,呵呵,下次吧.
墮入凡間的雨- 21:41:12
　　
JAVA神化- 21:41:13
　　明天去報到
　　聽(tīng)說(shuō)還要軍訓 5
農民 - Javen- 21:41:15
　　感謝 chris 的學(xué)識與努力，也感謝大家的支持！
　　
　　今天晚上到此為止。

本站僅提供存儲服務(wù)，所有內容均由用戶(hù)發(fā)布，如發(fā)現有害或侵權內容，請點(diǎn)擊舉報。

欧美性猛交XXXX免费看蜜桃,成人网18免费韩国,亚洲国产成人精品区综合,欧美日韩一区二区三区高清不卡,亚洲综合一区二区精品久久