農民 - Javen- 19:50:30
感謝大家支持!
1、自由發(fā)言:大家悠著(zhù)點(diǎn),不要太著(zhù)急啊。剛開(kāi)始請盡量由主講發(fā)言吧;
2、一點(diǎn)限制:主講人與管理員的字體顏色為紅色,請大家使用黑色或者藍色,并且請大家
字體不要超過(guò)5號;
crane- 19:50:39
偶鼓掌先
老漁翁- 19:50:46
crane- 19:51:01
╃(Chris-- 19:51:05
hi,各位,現在開(kāi)始吧.
charbee- 19:51:06
廣州好像已經(jīng)20:00啦
朱世杰℡- 19:51:27
GG
農民 - Javen- 19:51:33
好了。 大家歡迎 chris , 也感謝大家的支持!
真神- 19:52:28
歡迎
╃(Chris-- 19:52:31
恩,多謝大家支持,我先自我介紹一下.我是chris,matrix打算在這個(gè)高手群里經(jīng)常展開(kāi)一些專(zhuān)題性,技術(shù)含量比較高的專(zhuān)題討論,從來(lái)讓大家都能獲益。所以我今晚就拋磚引玉,希望以后大家也能踴躍報名.
╃(Chris-- 19:52:58
術(shù)業(yè)有專(zhuān)攻,誰(shuí)也不會(huì )是十全十美的高手,但是能夠把自己專(zhuān)長(cháng)的東西拿出來(lái)和大家分享,是一件很令人開(kāi)心的事情
阿古- 19:53:04
鼓掌
nemo- 19:53:10
老漁翁- 19:53:19
冰云- 19:53:25
別刷屏!
╃(Chris-- 19:53:29
搜索引擎技術(shù)不是我的專(zhuān)業(yè),但是我的興趣,3年前我研究lucene源代碼從而對搜索引擎感
興趣,從而進(jìn)入了這個(gè)領(lǐng)域。
╃(Chris-- 19:53:53
我的專(zhuān)業(yè)是金融領(lǐng)域的一些算法研究和應用,在香港,這方面比國內還是要先進(jìn)一些,希
望下次能有機會(huì )給大家講講這方面的技術(shù)。
╃(Chris-- 19:54:02
言歸正傳,下面我們開(kāi)始今天的專(zhuān)題討論。
╃(Chris-- 19:54:26
我會(huì )從結構上和方向上做一些介紹,至于詳細的算法, 今晚因為時(shí)間原因我就不講那么詳
細,具體有疑問(wèn)大家在論壇發(fā)貼或者email和我聯(lián)系。
~~>.<~~- 19:55:12
good
!!
╃(Chris-- 19:55:19
先大概介紹一些搜索引擎吧,這里指的搜索引擎是指類(lèi)似于www.google.com,www.baidu.com
這樣的搜索引擎.yahoo嚴格意義上,不具有一個(gè)完整的搜索引擎的全部東西.google是搜索
引擎的典范.
~~>.<~~- 19:55:20
有興趣。
╃(Chris-- 19:55:38
我今晚會(huì )大概介紹一下一個(gè)完整的搜索引擎的架構以及用到的關(guān)鍵技術(shù).
╃(Chris-- 19:55:53
對一個(gè)搜索引擎來(lái)講, 比較傳統的架構會(huì )是這樣的:
crawler - index engine - search engine
~~>.<~~- 19:55:53
怎么你打字超快啊。
crane- 19:55:58
up一下
Server- 19:56:17
不要說(shuō)話(huà),尊重一下
~~>.<~~- 19:56:22
~~>.<~~- 19:56:32
比掌聲??!
KIKI- 19:56:55
暈,不要說(shuō)話(huà),聽(tīng)Chris大哥講
╃(Chris-- 19:56:58
crawler就是一個(gè)不斷從網(wǎng)上將網(wǎng)頁(yè)抓下來(lái)的一個(gè)引擎. index engine是一個(gè)索引引擎.
search engine就是檢索引擎.
╃(Chris-- 19:57:07
下面,我們先從crawler開(kāi)始講.
wuyu- 19:57:59
呵,百度的spider,trs的雷達,應該都算crawler吧?
╃(Chris-- 19:58:18
Crawler是一項比較復雜的技術(shù),Standford有一些博士畢業(yè)論文的主題就是Crawler的算法.
╃(Chris-- 19:58:45
對,但是就crawler來(lái)說(shuō),google無(wú)疑是做的最好的,具體也有很多數據,包括覆蓋率,精確性等.
╃(Chris-- 19:59:18
stanford有一下顎關(guān)于crawler的paper,大家可以訪(fǎng)問(wèn)
http://dbpubs.stanford.edu:8090/aux/index-en.html 里面有不少關(guān)于crawler的算法,
以及google的crawler的一些原型算法,當然現在的google的crawler遠遠要復雜的多.
wuyu- 19:59:55
Crawler主要完成哪些工作?包不包括對html、script這類(lèi)“無(wú)用”信息的處理?
╃(Chris-- 19:59:56
就一個(gè)crawler來(lái)說(shuō),比較復雜的技術(shù)在于:
charbee- 20:00:01
lucene跟google有什么關(guān)系嗎?
問(wèn)題我先mark一下,等下chris講完了,再問(wèn)
╃(Chris-- 20:00:21
有,lucene會(huì )在下面提到,lucene應該屬于index engine部分的東西.
╃(Chris-- 20:00:27
就是中間的這部分.
wuyu- 20:00:36
lucene只是chris講的搜索引擎的一部分,負責全文檢索,而且lucene的切分詞是采用自動(dòng)
切分詞技術(shù)的
wuyu- 20:00:57
還是從crawler開(kāi)始吧,不打岔了
╃(Chris-- 20:01:13
好,wuyu的問(wèn)題很好,一會(huì )我們再討論一下分詞這個(gè)東西.
╃(Chris-- 20:02:27
繼續crawler的關(guān)鍵技術(shù):
1.分布式,多線(xiàn)程抓取.任務(wù)的調度問(wèn)題. 因為對于成千上萬(wàn)的網(wǎng)頁(yè), 如何不重復抓取, 又
不漏掉重要站點(diǎn), 是一個(gè)很關(guān)鍵的問(wèn)題. 這里需要一個(gè)好的分布式算法,一個(gè)很好的任務(wù)
調度機制。
╃(Chris-- 20:03:17
具體的算法,這里就不聊了,每個(gè)算法都可以開(kāi)一個(gè)專(zhuān)題來(lái)討論的,呵呵.
crane- 20:03:23
支持打岔
朱世杰℡- 20:03:39
能不能提一下那些算法
朱世杰℡- 20:04:34
INTRO即可
charbee- 20:05:49
lucene的最新版支持中文了嗎?
wuyu- 20:06:01
先整體介紹吧,對各部分的著(zhù)重點(diǎn)提一下,最后大家再對具體的某些點(diǎn)做提問(wèn),畢竟搜索
引擎每一部分都可以開(kāi)一大個(gè)專(zhuān)題來(lái)討論,在一個(gè)細節上陷進(jìn)去就難出來(lái)了
╃(Chris-- 20:06:02
算法,沒(méi)有固定的名字,因為這是一個(gè)特殊的領(lǐng)域,但是對于調度算法的研究,會(huì )基于傳統的
分布式調度算法來(lái)進(jìn)行.
KIKI- 20:06:18
不支持吧,weblucene支持,也是開(kāi)源項目
charbee- 20:06:42
車(chē)東的開(kāi)源,我知道。環(huán)境架不起來(lái)。
wuyu- 20:06:44
看吧,一扯就扯遠了吧。讓chris繼續吧
╃(Chris-- 20:07:19
繼續crawler的關(guān)鍵技術(shù):
2.網(wǎng)頁(yè)重要性的評估, 這個(gè)很重要,因為crawler不會(huì )把所有網(wǎng)頁(yè)都抓下來(lái),只會(huì )抓20%的網(wǎng)
頁(yè)下來(lái),所以必須評估網(wǎng)頁(yè)的重要性,如何評估就顯得很重要.
╃(Chris-- 20:07:48
一般,評估技術(shù)會(huì )用到page rank算法.這是google發(fā)明的算法.
╃(Chris-- 20:08:11
Pagerank這里就不介紹的太詳細了,大家google一下有很多介紹的。大概說(shuō)一下,就是通
過(guò)指向頁(yè)面A的鏈接數量和權重來(lái)判斷頁(yè)面A的rank 值。Matrix的page rank是5.0,是一個(gè)
中等的得分
╃(Chris-- 20:09:29
繼續crawler的關(guān)鍵技術(shù):
refresh policy-. 因為網(wǎng)頁(yè)抓下來(lái)之后,每經(jīng)過(guò)一段時(shí)間,crawler都必須更
新網(wǎng)頁(yè),從而保證索引的網(wǎng)頁(yè)是最新的網(wǎng)頁(yè)。最簡(jiǎn)單的更新策略就是把所有網(wǎng)頁(yè)重新下載
一次,但是這個(gè)耗費的時(shí)間起碼是一個(gè)月,是heavy cost,不能被接受。所以,一個(gè)優(yōu)秀的
更新算法是一個(gè)crawler的根本。
╃(Chris-- 20:10:41
繼續crawler的關(guān)鍵技術(shù):
4.壓縮算法,Crawler抓下來(lái)的東西,會(huì )分布式的存儲在本地。一般來(lái)講,因為數據量的龐
大,所以這里的存儲會(huì )有一個(gè)壓縮機制,從來(lái)減少總的存儲容量。包括將來(lái)在各個(gè)數據服
務(wù)器之間傳輸數據,都是需要一個(gè)優(yōu)秀的壓縮算法,從來(lái)減少通訊帶來(lái)的帶寬負擔。
╃(Chris-- 20:11:10
關(guān)于crawler的介紹就完了,大家自由提問(wèn)吧.提問(wèn)完我們進(jìn)入index engine
base- 20:11:26
1. 分布式的運算方式
2. 效率問(wèn)題
3. 切詞
4. 相似性分析
5. 如何緩存等等
請簡(jiǎn)述一下先,謝謝
偶列的可能沒(méi)有重點(diǎn),請指教,偶關(guān)心相似性分析部分
base- 20:11:32
哦,這是剛才打的
真神- 20:12:13
google的pr值是針對性每個(gè)網(wǎng)頁(yè)還是一個(gè)網(wǎng)站?
base- 20:12:24
1. 你說(shuō)的是算法
2. 應該就是相似性分析部分
3和4應該屬于緩存和更新部分的吧
crane- 20:12:27
關(guān)心多線(xiàn)程的檢索方式
╃(Chris-- 20:12:28
一個(gè)一個(gè)來(lái),我先回答base的問(wèn)題,ok?
base- 20:12:37
╃(Chris-- 20:14:03
base的問(wèn)題:
1.分布式的運算方式? 這個(gè)主要就是任務(wù)調度的算法問(wèn)題,就是如何分配任務(wù). 比如,一個(gè)
很簡(jiǎn)單的分布式,就是一個(gè)線(xiàn)程下載一個(gè)網(wǎng)站,一臺服務(wù)器處理一個(gè)ip段.
╃(Chris-- 20:14:55
2.效率問(wèn)題? crawler目前來(lái)講,google跑完一次需要3個(gè)月,所以每隔一段時(shí)間google會(huì )
dance一次,就是重新整理索引.
base- 20:15:41
1. 這里面,如果某些服務(wù)器出現問(wèn)題的時(shí)候怎么辦?
2. GOOGLE是如何存放數據的,DBMS?
base- 20:15:59
哦,我應該了解下crawler先
╃(Chris-- 20:16:25
1. 有備份機制,如何備份不得而知. 2.自己定義的格式存儲,比如txt,非dbms,肯定不是.
~~>.<~~- 20:17:03
為什么不用dbms?
base- 20:17:05
是DBMS是不行的,文本方式?大約可以知道是怎么存放的了
╃(Chris-- 20:17:40
3.切詞, 這個(gè)是中國搜索引擎的特色. 一般來(lái)講,切詞輸入nlp的領(lǐng)域,引入了nlp的話(huà),會(huì )提
高檢索效率,但是nlp是一個(gè)世紀難題,baidu解決得效果我看大家也能看得到.
╃(Chris-- 20:17:47
google沒(méi)有切詞這個(gè)概念
╃(Chris-- 20:18:04
4,5 屬于檢索引擎得東西,我們下面在談.
╃(Chris-- 20:18:17
next,真神得問(wèn)題?
真神- 20:18:35
google的pr值是針對每個(gè)網(wǎng)頁(yè)還是一個(gè)網(wǎng)站?
base- 20:18:36
切詞是剛才聽(tīng)到的,呵呵
╃(Chris-- 20:18:50
pr值是對每個(gè)網(wǎng)頁(yè).
base- 20:19:04
在語(yǔ)義分析的時(shí)候會(huì )有
╃(Chris-- 20:19:05
page rank,顧名思義,是page
╃(Chris-- 20:19:35
對,繞開(kāi)語(yǔ)義是必須得,google完全繞開(kāi)了語(yǔ)義.
冰云- 20:19:36
就是說(shuō),我和pr高的page做鏈接我的pr也會(huì )提高
╃(Chris-- 20:20:08
冰云說(shuō)得對,這個(gè)非常明顯
╃(Chris-- 20:20:30
但是也要和對方給出來(lái)得連接數量有關(guān)
陸地孤帆- 20:21:06
我想問(wèn)一下跨語(yǔ)言跨字符集的搜索怎么實(shí)現的?
比如我們輸入中文,卻能查到行相似關(guān)鍵字的繁體中文,甚至日問(wèn)韓問(wèn)資料?
base- 20:21:15
對,繞開(kāi)語(yǔ)義是必須得,google完全繞開(kāi)了語(yǔ)義.
但是這樣一來(lái),只是關(guān)鍵字分析的話(huà),那么相似性分析就會(huì )有很大偏差了
╃(Chris-- 20:22:05
但是效果來(lái)看,google并不差,實(shí)際上全文檢索引擎+page rank可以做得很好. 語(yǔ)義并不是
想象中那么容易處理. 往往1%得誤差,會(huì )造成10%的錯誤放大.
base- 20:22:40
當然,語(yǔ)義分析到現在也解決的不好,很難
╃(Chris-- 20:23:21
跨語(yǔ)言,跨字符集. 這個(gè)有一個(gè)翻譯的對應詞典. 會(huì )在索引階段就處理這個(gè)問(wèn)題. 比如簡(jiǎn)體
和繁體的對應. 但是google沒(méi)有做簡(jiǎn)體對英文的對應,因為這是屬于機器翻譯的問(wèn)題,而不
是簡(jiǎn)單的對應問(wèn)題.
冰云- 20:23:55
不是通過(guò)unicode么?
base- 20:24:13
page rank+全文檢索,這個(gè)問(wèn)題需要討論一下,有點(diǎn)不清楚
╃(Chris-- 20:24:27
對,簡(jiǎn)體,繁體,可以通過(guò)unicode
╃(Chris-- 20:25:00
但是which unicode對應which unicode 還是應該有個(gè)對應.
農民 - Javen- 20:25:41
還有沒(méi)有回答的:
crane- 20:12:27
關(guān)心多線(xiàn)程的檢索方式
╃(Chris-- 20:25:48
google的本質(zhì)是全文索引+page rank. 沒(méi)有語(yǔ)義,沒(méi)有分詞. 但是效果很不錯.
╃(Chris-- 20:26:10
crane,能把問(wèn)題說(shuō)清楚些么? 多線(xiàn)程的檢索方式?
╃(Chris-- 20:26:34
你是問(wèn)多用戶(hù)并發(fā)檢索的情況如何處理?
crane- 20:26:49
就是多線(xiàn)程 如何 處理不重復
crane- 20:27:05
如何保證 不重復檢索網(wǎng)頁(yè)
crane- 20:27:36
我曾經(jīng)做過(guò)爬網(wǎng)站的程序,這個(gè)是我遇到的最復雜的問(wèn)題
╃(Chris-- 20:27:59
應該是crawler如何不重復下載網(wǎng)頁(yè)吧?最簡(jiǎn)單的方法,就是我前面提到的:
比如,一個(gè)很簡(jiǎn)單的分布式,就是一個(gè)線(xiàn)程下載一個(gè)網(wǎng)站,一臺服務(wù)器處理一個(gè)ip段.
╃(Chris-- 20:28:42
具體,如果是在一個(gè)網(wǎng)站也采用多線(xiàn)程處理,那么實(shí)現方式上來(lái)講,會(huì )有一個(gè)隊列,來(lái)存儲已
經(jīng)處理過(guò)的頁(yè)面. 然后新處理的頁(yè)面要比較一下隊列里的頁(yè)面.
農民 - Javen- 20:28:52
但 matrix 會(huì )同時(shí)有 上千個(gè) google 線(xiàn)程來(lái) dance
╃(Chris-- 20:29:07
對,上面講到了解決方法.
╃(Chris-- 20:29:14
會(huì )有一個(gè)隊列.
crane- 20:29:25
一個(gè)線(xiàn)程下載一個(gè)網(wǎng)站,我倒,因為我這個(gè)程序是就一個(gè)機器,我的PC
crane- 20:29:36
有沒(méi)有其他的辦法
crane- 20:29:59
算法推薦也好
base- 20:30:03
就是一個(gè)網(wǎng)段一個(gè)網(wǎng)段的排吧
base- 20:30:10
不會(huì )重復網(wǎng)站了
╃(Chris-- 20:30:16
如果是n個(gè)線(xiàn)程處理一個(gè)網(wǎng)站,那么就是我上面提到的方法啊.
╃(Chris-- 20:30:27
會(huì )有一個(gè)隊列,來(lái)存儲已經(jīng)處理過(guò)的頁(yè)面. 然后新處理的頁(yè)面要比較一下隊列里的頁(yè)面.
╃(Chris-- 20:30:36
所有線(xiàn)程共享這個(gè)隊列.
╃(Chris-- 20:30:43
這是最簡(jiǎn)單的方法.
crane- 20:31:03
哦,明白了,謝謝
╃(Chris-- 20:31:05
在n個(gè)線(xiàn)程處理一個(gè)網(wǎng)站,當然也可以有一些更聰明的調度方法,
╃(Chris-- 20:31:24
具體以后再聊聊.
╃(Chris-- 20:31:29
還有其他問(wèn)題么?
crane- 20:31:33
更聰明 的是什么,剛才你說(shuō)的一個(gè)隊列和我的想法是一樣的價(jià)值不大
冰云- 20:31:42
pr這東西對個(gè)人網(wǎng)站到底有沒(méi)有意義呢?
base- 20:32:03
以前偶查東西的時(shí)候是IP段來(lái),一個(gè)IP一個(gè)IP的來(lái)過(guò)
crane- 20:32:08
更聰明算法 的我以后找你可以么
╃(Chris-- 20:32:19
價(jià)值不大?但是你必須實(shí)現啊. 其他算法以后我們可以探討一下.
╃(Chris-- 20:32:38
pr值我覺(jué)得還是挺重要,起碼再google排名上氣的是關(guān)鍵性的作用.
冰云- 20:32:56
左邊的排名是排的PR?
base- 20:32:58
我還是不明白,page rank + 全文檢索,如何處理的相似性問(wèn)題,就是重要性問(wèn)題,舉個(gè)
例子如何?
╃(Chris-- 20:33:07
google帶來(lái)的訪(fǎng)問(wèn)量,目前來(lái)講是在60%以上.
農民 - Javen- 20:33:56
我們在同一個(gè)數據庫里檢索數據都要考慮速度問(wèn)題,google 是怎么樣保證他的檢索速度的?
同一個(gè)關(guān)鍵詞的搜索,他需要從 N 個(gè)服務(wù)器上去拿數據,而且上面說(shuō)到的,可能是打開(kāi)文
本文件來(lái)獲得數據。
方片- 20:34:14
為什么在GOOGLE中搜索,當你翻了很多頁(yè)時(shí)會(huì )經(jīng)常出現重復的頁(yè)面鏈接?
╃(Chris-- 20:34:25
base,可以看看page rank算法.
base- 20:35:03
哦,謝謝,偶去望一下
charbee- 20:35:18
weblucene怎么用呀?
郁也風(fēng)- 20:36:00
base- 20:36:12
you can use English,haha....
╃(Chris-- 20:36:12
javen,這個(gè)就是分布式全文索引的效率問(wèn)題,效率上來(lái)講,這個(gè)會(huì )很迅速,特別是海量數據的
處理上,會(huì )比傳統的數據庫快n倍.對google來(lái)講,檢索一次,也就是讀幾個(gè)文件,本地傳輸2次
數據.速度完全可以保證
郁也風(fēng)- 20:36:33
English is my weakest link
╃(Chris-- 20:36:44
charbee,weblucene我沒(méi)有用過(guò),希望下次我們可以把車(chē)東請過(guò)來(lái)給大家講講這個(gè)東西,呵呵.
javen可以聯(lián)系一下
base- 20:37:01
try Wan neng Wubi :)
crane- 20:37:16
嘩~~~~ 鼓掌~~
郁也風(fēng)- 20:37:23
welcome:)
charbee- 20:37:29
好,
阿古- 20:37:36
鼓掌!
拓拔濤- 20:37:36
冰云- 20:37:43
車(chē)東現在在美國培訓
KIKI- 20:37:45
Server- 20:37:46
em14
base- 20:37:52
農民 - Javen- 20:38:01
檢索一次,也就是讀幾個(gè)文件,本地傳輸2次數據.
這個(gè)可以細化一下???
Server- 20:38:03
em13
charbee- 20:38:14
lucene呢,講講原碼核心部分也好。
╃(Chris-- 20:38:17
javen,這個(gè)和google的具體索引實(shí)現有關(guān).
農民 - Javen- 20:38:27
警告: base Server
不要發(fā)這種東西。 否則立馬清除!
base- 20:38:36
真神- 20:38:40
這個(gè)是否是index engine部分的內容了?
╃(Chris-- 20:38:46
lucene源碼核心我也想講講,但是時(shí)間不是很允許.
╃(Chris-- 20:38:56
對,下面我們講講index engine
charbee- 20:39:04
呵呵,好。
crane- 20:39:06
lucene源碼核心 放到最后講如何
charbee- 20:39:11
好。
crane- 20:39:17
好
╃(Chris-- 20:39:30
現在已經(jīng)快一個(gè)小時(shí)了,我得手要斷了,哈哈
charbee- 20:39:44
page rank 還沒(méi)有講完,我的一個(gè)普通網(wǎng)頁(yè)的網(wǎng)站,怎么提高page rank
農民 - Javen- 20:39:51
要不休息一會(huì )兒吧。 大家自由聊聊。
crane- 20:39:52
挑戰體能極限,我們都支持你
crane- 20:40:05
好哈,休息
郁也風(fēng)- 20:40:07
╃(Chris-- 20:40:14
charbee:
1. 找盡量多的網(wǎng)頁(yè)為你做鏈接指向你.
KIKI- 20:40:17
吃塊瓜,
農民 - Javen- 20:40:22
charbee : 這個(gè)倒是個(gè)實(shí)在的問(wèn)題啊。
我的 blog 今天看到了 3 了 。 哈哈
charbee- 20:40:42
呵呵。
冰云- 20:40:45
我之前是5,現在下降到4,估計和我有情鏈接增多有關(guān)
郁也風(fēng)- 20:40:45
my pr value is zero
crane- 20:41:05
怎么看5 3呀
冰云- 20:41:10
google bar
charbee- 20:41:10
我的也是0
crane- 20:41:14
pr指數在哪里看?
╃(Chris-- 20:41:20
增多是不會(huì )減少pr的. pr只和指向你的鏈接有關(guān).
郁也風(fēng)- 20:41:20
my link‘s type is ?abc=***
╃(Chris-- 20:41:31
下載一個(gè)google的bar就可以看到
╃(Chris-- 20:42:52
下面我們繼續index engine
crane- 20:43:10
好,謝謝
charbee- 20:43:25
農民我的blog玩不了了:
http://www.matrix.org.cn/blog/char/
charbee- 20:43:46
繼續 index engine
好像lucene就是用 index engine
╃(Chris-- 20:44:09
東西抓下來(lái)之后,除了存儲起來(lái),就是要進(jìn)行索引了,這就是Index engine要做的事情。
這里我們的索引都是指完全的全文索引,而不是只對字的索引,或者只對詞的索引。有些
國內的檢索引擎是對字的索引或者對詞的索引,或者兩者的結合。
KIKI- 20:44:11
好像也有search engine吧?
╃(Chris-- 20:44:48
其實(shí),我們平時(shí)用的lucene就是一個(gè)索引引擎,但是不支持分布式。而且,索引壓縮算法
還有其他方面還存在一些問(wèn)題不適合大型搜索引擎使用,但是對于一般通常的應用來(lái)講應
該是沒(méi)有什么問(wèn)題。
╃(Chris-- 20:45:39
關(guān)于index engine,有幾個(gè)問(wèn)題比較關(guān)鍵:
╃(Chris-- 20:46:30
1.一般來(lái)講,因為數據量是很大,所以索引的容量也會(huì )很大,一般來(lái)講,數據量和索引量
的比例會(huì )是1:1。所以,索引的存儲也會(huì )是分布式的。比如google,用來(lái)存儲索引的服務(wù)
器大概有1000多臺。google用的是什么算法是沒(méi)有公布,起碼我是沒(méi)有找到。最簡(jiǎn)單的索
引就是倒排索引,lucene就是用的這個(gè).
╃(Chris-- 20:48:51
2.Index engine 必須支持增量索引,而且增量索引速度應該很快。這個(gè)問(wèn)題,通常的解
決方法,是為新增的數據新建一個(gè)新的索引塊,然后在一定時(shí)間,將這個(gè)新的索引塊并入
舊的索引塊。比如lucene里就是這么做的。
╃(Chris-- 20:50:55
3.索引有一個(gè)壓縮的問(wèn)題,因為通常數據量和索引量的比例會(huì )是1:1,如果壓縮算法做的
比較好的話(huà),應該可以得到更好的一個(gè)比例。lucene這方面做的比較一般.
╃(Chris-- 20:51:29
4.還有就是多語(yǔ)言的問(wèn)題,索引必須支持多語(yǔ)言.現在unicode可以很好的解決這個(gè)問(wèn)題
╃(Chris-- 20:52:55
5.索引的結構還必須為檢索,相似性分析,等等提供良好的計算接口.比如google和baidu的
類(lèi)似網(wǎng)頁(yè),為了很快找到類(lèi)似網(wǎng)頁(yè),這些數據也必須放到索引里面去.
╃(Chris-- 20:53:57
6.當然,支持doc,excel,ps 等多種文件格式,這個(gè)是基本的東西了
Join- 20:54:19
怎么把數據放入索引哦?
Join- 20:54:27
添加索引??
╃(Chris-- 20:54:29
就是通過(guò)索引引擎.
Join- 20:54:44
沒(méi)聽(tīng)過(guò)
╃(Chris-- 20:54:56
數據下載下來(lái),出發(fā)索引引擎,索引引擎分析數據,添加到索引庫.
╃(Chris-- 20:55:48
index engine 介紹完了.大家自己提問(wèn)
╃(Chris-- 20:55:52
自由提問(wèn)
方片- 20:57:51
時(shí)間太短,講的東西太深,聽(tīng)不大懂,Chris能不能花點(diǎn)時(shí)間將今天的講座整理成一篇文檔,
以便慢慢學(xué)習啊
農民 - Javen- 20:58:11
坦率地說(shuō),我沒(méi)有太明白“全文”索引的意思。 對象不是字、詞,是全文?
一般意義上的索引對象都是關(guān)鍵字。
╃(Chris-- 20:58:15
呵呵.好啊.完了會(huì )整理放到網(wǎng)上.
阿古- 20:58:23
就是阿
感覺(jué)很復雜
很多算法沒(méi)有接觸到
農民 - Javen- 20:58:34
我會(huì )整理好記錄的。 我已經(jīng)在整理了。 會(huì )完后馬上可以放到網(wǎng)絡(luò )上。
charbee- 20:58:54
最好有實(shí)際點(diǎn)的東西比較好,有這樣有什么好,沒(méi)有這樣有什么好。
crane- 20:58:55
是哈,這個(gè)東西太深了,而且涉及的方面可真多
KIKI- 20:59:01
主要是沒(méi)學(xué)過(guò)九陽(yáng)神功,要不小KS
╃(Chris-- 20:59:07
對,全文檢索不是對關(guān)鍵字,是對全文.
比如"我是中國人",檢索"是中",也可以檢索到就是全文檢索
郁也風(fēng)- 20:59:25
base- 20:59:34
這里應該是page rank的內容了吧?
阿古- 20:59:45
你可以寫(xiě)拼音嘛1
base- 20:59:49
you can download the 萬(wàn)能五筆
wuyu- 20:59:52
能不能再介紹一下索引中的分詞處理,比如中文同義詞處理?
郁也風(fēng)- 21:00:24
I‘m downloading MS ime,76MB
wuyu- 21:00:25
如果搜“毛主席”,帶著(zhù)“毛澤東”、“毛潤芝”之類(lèi)的信息也能檢索出來(lái)?
crane- 21:00:28
Chris 隨便找個(gè)你認為最有價(jià)值 的方面,詳細講講吧
╃(Chris-- 21:00:41
google對索引,不會(huì )做分詞處理的.所以不會(huì )對同義詞進(jìn)行處理. baidu會(huì )做處理.
base- 21:00:52
萬(wàn)能五筆 is little, just less than 5M
墮入凡間的雨- 21:01:13
這樣的處理豈不是很復雜
crane- 21:01:24
google現在能處理拼音了
wuyu- 21:01:31
是啊,baidu、trs、慧聰之類(lèi)的國內廠(chǎng)商所吹的,也就是基于漢語(yǔ)言的切分詞技術(shù)
wuyu- 21:01:58
中文切分詞過(guò)程大致的原理?
crane- 21:02:00
trs 不是國內的吧
wuyu- 21:02:11
國內的,易寶嘛
╃(Chris-- 21:02:13
trs是港資的,但是主力是國內的
╃(Chris-- 21:02:24
北京信息工程學(xué)院的
charbee- 21:02:34
Chris,你在trs做嗎?
╃(Chris-- 21:02:40
慧聰嗎,呵呵..我呆過(guò)一段時(shí)間.
wuyu- 21:02:49
呵,主要是trs比較便宜,好象trs server才8萬(wàn)。
╃(Chris-- 21:02:57
不在trs啊? 這個(gè)不是我的專(zhuān)業(yè),只是我的愛(ài)好.
crane- 21:04:36
基于漢語(yǔ)言的切分詞技術(shù), 維護同義詞字典?
wuyu- 21:04:47
慧聰吹的有一個(gè)東西是內嵌在關(guān)系數據庫內的全文,trs、百毒、lucene都是另起專(zhuān)門(mén)的全
文庫,這兩種方式有什么優(yōu)缺點(diǎn)?
農民 - Javen- 21:05:20
因為 google 根本不去管什么分詞、語(yǔ)義,而 baidu 、慧聰什么的在玩一點(diǎn),所以說(shuō)他們
技術(shù)比 google 高,說(shuō)什么第三代、第四代搜索技術(shù)?
bill-過(guò)兒- 21:06:05
感謝!我來(lái)晚了!
base- 21:06:22
唉,語(yǔ)義分析,
KIKI- 21:06:27
暈,現在才來(lái)?
農民 - Javen- 21:06:36
感謝大家支持!
1、自由發(fā)言:大家悠著(zhù)點(diǎn),不要太著(zhù)急啊。剛開(kāi)始請盡量由主講發(fā)言吧;
2、一點(diǎn)限制:主講人與管理員的字體顏色為紅色,請大家使用黑色或者藍色,并且請大家
字體不要超過(guò)5號;
crane- 21:06:46
自然語(yǔ)言語(yǔ)義分析可有的玩了
wuyu- 21:06:49
我是覺(jué)得中文切分詞很關(guān)鍵啊,如果用lucene的自動(dòng)切分詞,能夠滿(mǎn)足“查全”的要求,
但是實(shí)際應用中,更加需要“查準”啊,你出一萬(wàn)條垃圾信息還不如出一條用得著(zhù)的信息好
bill-過(guò)兒- 21:07:25
是啊,聚了一下會(huì )!
╃(Chris-- 21:07:29
information retrieval-的技術(shù)會(huì )越來(lái)越多的應用到搜索引擎里面.比如,排重,
相似性分析,用戶(hù)愛(ài)好分析,問(wèn)題回答性質(zhì).等等. 但是,這都要以一定的準確性為基礎,如果
技術(shù)不成熟,就只能是放在實(shí)驗室的產(chǎn)品.
charbee- 21:07:29
有沒(méi)有實(shí)用點(diǎn)的技巧?
crane- 21:07:33
切分詞技術(shù) 方便解釋一下么
郁也風(fēng)- 21:08:00
切分詞? I‘m late, what is 切分詞?wuyu?
bill-過(guò)兒- 21:08:22
繼續
charbee- 21:08:28
車(chē)東有篇文章講切分詞。
wuyu- 21:08:32
郁也風(fēng),拆分為“郁也”“也風(fēng)”,lucene就是用這種自動(dòng)切分詞手段的,兩字兩字一切分。
crane- 21:08:45
哦,明白了,謝謝
郁也風(fēng)- 21:08:57
i see:)
wuyu- 21:09:31
英文好切分,見(jiàn)空白符就切成word了,中文就沒(méi)邊界。"this is",明顯的兩個(gè)詞,但是
“郁也風(fēng)”,你讓計算機去判斷判斷用了幾個(gè)詞?
crane- 21:09:40
我想,應該切分有意義的詞吧
╃(Chris-- 21:09:46
切分詞,對英文是不存在這個(gè)分詞的問(wèn)題,因為空格就是英文單詞的分隔符..
但是中文就有,比如 "我馬上從馬上下來(lái)",計算機存在識別困難. 現在,通過(guò)一定的技術(shù),基
于語(yǔ)料庫,可以達到比較好的效果.
crane- 21:10:07
哈哈,這個(gè)例子好玩
墮入凡間的雨- 21:10:29
語(yǔ)料庫是什么?
crane- 21:10:33
語(yǔ)料庫 是什么,不只是詞典吧,還有什么
base- 21:10:37
又到了語(yǔ)義分析上了,唉,誰(shuí)能三言?xún)烧Z(yǔ)說(shuō)明白,老朽會(huì )佩服死去活來(lái)的
bill-過(guò)兒- 21:11:02
對不起噢!
charbee- 21:11:09
http://www.chedong.com/tech/lucene.html#segment
Word Segment-
bill-過(guò)兒- 21:11:13
可以了
╃(Chris-- 21:11:16
語(yǔ)料庫是一些,已經(jīng)處理好的標注文章, 比如把人民日報2年的文章分詞標注好. 然后基于
這個(gè)語(yǔ)料庫來(lái)處理分詞.
bill-過(guò)兒- 21:11:25
調整好了
crane- 21:11:29
這么智能呀
╃(Chris-- 21:11:41
語(yǔ)料庫是手動(dòng)做的.
base- 21:11:49
這個(gè)查詢(xún)數據量,大了去了,有什么相關(guān)算法?
crane- 21:11:59
想當于 先給機器人學(xué)知識,然后他去做 舉一反三的工作?
╃(Chris-- 21:11:59
這個(gè)建索引,速度還不錯.
╃(Chris-- 21:12:06
crane說(shuō)對了
crane- 21:12:41
哇,太夸張了,現在的技術(shù)可真厲害,估計性能是個(gè)不小的問(wèn)題
base- 21:12:45
呵呵
墮入凡間的雨- 21:13:18
也就是將常用詞語(yǔ)做庫!然后在語(yǔ)法切分時(shí)根據庫做比較?
真神- 21:13:32
這個(gè)深入下去估計是AI方面的內容了
base- 21:13:42
不用深入,已經(jīng)是了
╃(Chris-- 21:13:46
不僅僅這么簡(jiǎn)單,是對一些文章進(jìn)行分詞并進(jìn)行詞性標注.
╃(Chris-- 21:14:10
先手動(dòng)做,然后讓機器在這個(gè)基礎上對其他文章自動(dòng)分詞
墮入凡間的雨- 21:14:41
也就是叫機器去讀文章!
╃(Chris-- 21:14:46
對.
╃(Chris-- 21:14:58
這些都是ir,nlp范疇的東西,呵呵
真神- 21:15:29
說(shuō)到這里我想起電影《AI》里小機器人去游樂(lè )場(chǎng)問(wèn)問(wèn)題那一幕
╃(Chris-- 21:15:32
所以說(shuō),搜索引擎是一項非常豐富的技術(shù).會(huì )牽涉很多領(lǐng)域
╃(Chris-- 21:15:45
下面我們繼續 search engine
墮入凡間的雨- 21:16:05
如果庫的文件不是很大,倒是為未來(lái)的電腦語(yǔ)音系統提供了很好的內容
農民 - Javen- 21:16:48
第三個(gè)部分內容:
base- 21:16:52
如果語(yǔ)義分析解決了,不是領(lǐng)域問(wèn)題,是對人類(lèi)的一大貢獻哦
╃(Chris-- 21:17:13
索引建好之后,就是為了search 服務(wù)了.
通常流程是這樣的,用戶(hù)發(fā)出請求 <-> search engine<-> index server
╃(Chris-- 21:18:06
對于檢索引擎,search engine,有以下關(guān)鍵問(wèn)題:
1. 檢索結果的排序問(wèn)題,這個(gè)其實(shí)前面的page rank做了很多鋪墊的
╃(Chris-- 21:18:58
一些新的嘗試,比如對用戶(hù)偏好的分析之類(lèi)的,都可以運用在這里,對不同偏好的用戶(hù)采用不
同的排序策略
╃(Chris-- 21:19:37
2.檢索結果的排重問(wèn)題,就是排除重復的結果.這個(gè)算法很重要,因為不僅是準確性的問(wèn)題,
還有就是速度問(wèn)題.
╃(Chris-- 21:20:06
3.檢索結果的相似性分析問(wèn)題,這個(gè)和上面的為那提比較類(lèi)似. 主要用在 類(lèi)似網(wǎng)頁(yè) 里面
╃(Chris-- 21:21:04
4.檢索的速度問(wèn)題.這個(gè)主要是靠前面的索引結構決定.當然,很多技術(shù)可以用來(lái)提升速度,
比如分布式cache
╃(Chris-- 21:21:23
大概就這么幾個(gè)問(wèn)題..
╃(Chris-- 21:21:26
大家自由發(fā)言.
wuyu- 21:21:52
能不能講講二次檢索?
crane- 21:22:06
感覺(jué) 問(wèn)題 好象應該在入倉的時(shí)候就 該解決
crane- 21:22:15
感覺(jué) 排重問(wèn)題 好象應該在入倉的時(shí)候就 該解決
╃(Chris-- 21:22:27
二次檢索很簡(jiǎn)單,其實(shí)就是和第一次檢索的東西作一次and
bill-過(guò)兒- 21:22:38
檢索結果的排重問(wèn)題,就是排除重復的結果.這個(gè)算法很重要,
這個(gè)要自己 開(kāi)發(fā) 嗎?
╃(Chris-- 21:22:48
對,排重的問(wèn)題,很多會(huì )在入庫的時(shí)候解決.
wuyu- 21:22:50
但是二次檢索對性能的影響?一般搜索引擎是怎么處理的?
╃(Chris-- 21:23:29
性能影響不大...對于優(yōu)秀的搜索引擎來(lái)講,一般的布爾表達式都不會(huì )是大問(wèn)題
╃(Chris-- 21:23:54
二次檢索也只是為布爾表達式加了一個(gè)and
╃(Chris-- 21:24:09
排重當然要自己開(kāi)發(fā)拉?
wuyu- 21:24:44
"上一次的" AND 關(guān)鍵詞),然后進(jìn)行“全新”的檢索?
╃(Chris-- 21:25:16
這只是一種實(shí)現方式, 就是這種方式,解決起來(lái)也是完全可行的.當然,有更好的方式,比如放到cache里,然后檢索cache等.
wuyu- 21:25:21
我暈死,呵呵,我還一直以為采用了某些手段,比如做了cache
╃(Chris-- 21:25:57
呵呵.
郁也風(fēng)- 21:26:45
"上一次的" AND 關(guān)鍵詞-it‘s like my method:)
╃(Chris-- 21:26:59
呵呵
wuyu- 21:27:07
我是關(guān)鍵數據庫的檢索時(shí)被人逮著(zhù)問(wèn)二次檢索的,那家伙硬是把我用的trsserver提供全文和我業(yè)務(wù)后臺管理時(shí)從關(guān)系數據庫做檢索混起來(lái),非讓我明白的告訴他支持不支持二次檢索,是怎么支持的,暈啊
農民 - Javen- 21:27:11
大家還有問(wèn)題嗎? 要不今天暫時(shí)到這里?
SS- 21:27:24
問(wèn)個(gè)問(wèn)題
SS- 21:27:35
比如剛才因為很多沒(méi)有看到
╃(Chris-- 21:27:42
wuyu,你這個(gè)問(wèn)題必須放到cache里.
農民 - Javen- 21:27:43
chris 應該是比較累了。 呵呵 。 狂敲鍵盤(pán)一個(gè)半小時(shí)了。
KIKI- 21:27:44
急什么?? 都這么有熱情勁兒
╃(Chris-- 21:27:52
哈哈
JAVA神化- 21:27:58
SS- 21:27:59
比如我檢索一個(gè)條件是 xx=123 and test=234
bill-過(guò)兒- 21:28:04
唉!我還沒(méi)聽(tīng)夠那!
SS- 21:28:07
一般做法是不是分2次檢索
JAVA神化- 21:28:09
charbee- 21:28:11
呵呵。我們要考慮怎么把技術(shù)變成實(shí)用。
crane- 21:28:19
一般的大型企業(yè)應用系統中,哪些地方可以用到Lucene呢
SS- 21:28:29
先檢索出xx=123然后在結果集中test=234
╃(Chris-- 21:28:39
ss,這個(gè)要看索引結構,如果索引結構好,不用兩次檢索,可以一次掃描就解決
wuyu- 21:28:40
我是含糊過(guò)的,反正我關(guān)系數據庫的檢索是根據我定義的Filter做了cache,而他們大量用
檢索的時(shí)候是跑我trs server來(lái)檢索的,懶得理他,呵呵
crane- 21:29:35
學(xué)了這么多,手癢癢,想用用,在哪里能用這些技術(shù)
charbee- 21:29:55
好呀。最好能有些效果可以看看
墮入凡間的雨- 21:30:04
資源系統里面較為常用
╃(Chris-- 21:30:28
開(kāi)發(fā)搜索引擎的時(shí)候,或者處理海量數據的時(shí)候.
墮入凡間的雨- 21:30:38
而且資源系統中的數據量一般也是比較大的
╃(Chris-- 21:31:09
搜索引擎也會(huì )是將來(lái)的一個(gè)方向,專(zhuān)業(yè)化,個(gè)性化的搜索引擎
crane- 21:31:14
感覺(jué) 搜索引擎 是非常有錢(qián)途的東東
KIKI- 21:31:31
呵呵,沒(méi)錢(qián)途誰(shuí)學(xué)呀
wuyu- 21:31:49
我這邊更多的應用是從關(guān)系數據庫的數據導入全文庫,然后再提供出來(lái)做檢索。
不過(guò)有一個(gè)問(wèn)題很煩,就是關(guān)系數據庫(或是google的某個(gè)網(wǎng)頁(yè))做了變更、刪除以后全
文庫的同步問(wèn)題?
1、是更新后立即刷新全文完成同步,還是通過(guò)定時(shí)任務(wù)進(jìn)行同步?
2、如果是定時(shí)任務(wù),是增量更新方式來(lái)完成同步,還是完全復制的同步?
bill-過(guò)兒- 21:31:49
╃(Chris-- 21:31:51
對,前段時(shí)間萬(wàn)網(wǎng)老總就做了一次秀,關(guān)于搜索引擎
crane- 21:32:01
以前是信息就是金錢(qián),現在是信息太多,摘得出來(lái)才是金錢(qián)
阿古- 21:32:21
嗯
墮入凡間的雨- 21:32:27
還有個(gè)問(wèn)題,如果使用存儲過(guò)程,在查詢(xún)速度上會(huì )有很大的提升,但是如果考慮跨平臺的
使用,使用SQL語(yǔ)法有什么好的建議
SS- 21:32:50
要看是什么系統了
wuyu- 21:33:12
對于google來(lái)說(shuō),原始網(wǎng)站和全文庫的不同步是可以允許的,但是對于小型應用來(lái)說(shuō),原
始關(guān)系數據庫和全文庫的不同步或是同步不及時(shí),就是很難容忍的了,嗚嗚
SS- 21:33:16
我覺(jué)得這種核心思想應該是夠用則可
╃(Chris-- 21:33:28
小型應用,我覺(jué)得立即同步刷新就行了.
SS- 21:33:28
就是說(shuō)如果現有的速度夠用,就不要用存儲過(guò)程
墮入凡間的雨- 21:33:42
資源!應該是小學(xué)到高中的全部資源或者更多
SS- 21:33:52
如果不夠,在需要的地方加,此時(shí)不用顧慮移植問(wèn)題
wuyu- 21:34:26
基于事件觸發(fā)的機制,在關(guān)系數據庫完成更新操作后立即通知全文庫做內容更新同步操作?
╃(Chris-- 21:34:39
對,小型應用應該這樣
墮入凡間的雨- 21:35:24
這一步的更新是通過(guò)觸發(fā)器來(lái)實(shí)現???
╃(Chris-- 21:35:44
是觸發(fā)機制,不是觸發(fā)器
╃(Chris-- 21:36:07
trigger比較局限
crane- 21:37:01
關(guān)于搜索引擎的未來(lái),關(guān)于全球海量信息,會(huì )不會(huì )有這樣的問(wèn)題,就是計算機的性能發(fā)展比信息量增加的快,因為歷史資料是有限的 ,新的文字資料要人工寫(xiě)的
對于文字的檢索也許將來(lái)的性能不是問(wèn)題????有沒(méi)有這種可能
wuyu- 21:37:05
事件觸發(fā),我不一定是觸發(fā)器的,可是是對一個(gè)數據實(shí)體做一個(gè)動(dòng)作以后觸發(fā),或是完成一系列的動(dòng)作,也就是完成一個(gè)業(yè)務(wù)處理以后做觸發(fā)
SS- 21:37:14
不可能的
SS- 21:37:25
信息的發(fā)展是爆炸性的
SS- 21:37:49
這是指數級別的增長(cháng)
crane- 21:37:51
爆炸 的信息文字誰(shuí)來(lái)寫(xiě),要人來(lái)寫(xiě)的
SS- 21:38:07
而計算機性能是倍數級的
SS- 21:38:13
很多信息不需要人工輸入的
墮入凡間的雨- 21:38:14
解決問(wèn)題的方式也是!
bill-過(guò)兒- 21:38:23
可以發(fā)明說(shuō)話(huà)轉換成字阿
crane- 21:38:30
什么信息不需要人工輸入呀
╃(Chris-- 21:38:34
呵呵,這個(gè)也沒(méi)有辦法,你必須作出一個(gè)犧牲,it is a tradeoff.
SS- 21:38:37
很多,比如統計數據
crane- 21:38:54
bill-過(guò)兒- 21:38:23
可以發(fā)明說(shuō)話(huà)轉換成字阿
哦,對 ,這樣信息量就大了去了
SS- 21:39:16
還有比如探測器取得的信息
crane- 21:39:24
不過(guò),同樣面臨著(zhù)一個(gè)問(wèn)題,一年內一個(gè)人說(shuō)話(huà)是有限的
SS- 21:39:30
不一定是說(shuō)話(huà)
╃(Chris-- 21:39:31
今天的專(zhuān)題講座到這結束吧. 我們下次再見(jiàn).多謝各位的支持.希望matrix能有更多的高手加入進(jìn)來(lái).歡迎你們.
crane- 21:39:33
那不是文字信息了,圖形的
wuyu- 21:39:34
"內容"-;輸出的,或者是他的“鏈接”是由js、flash等手段來(lái)控制的,這種時(shí)候,spider常見(jiàn)的處理機制?有沒(méi)有簡(jiǎn)單入門(mén)的算法?
SS- 21:39:46
圖形 文字等等
crane- 21:39:52
暈,談?wù)勊阉饕娴奈磥?lái)吧
╃(Chris-- 21:40:14
這個(gè)是html的分析問(wèn)題,spider肯定有一個(gè)完整的html分析器.分析所有js,flash等,這個(gè)屬于program層面的東西了.呵呵.
crane- 21:40:18
技術(shù),基礎,歷史,都講了,最后要談未來(lái) 然后收功的
墮入凡間的雨- 21:40:21
圖形可以建立索引目錄呀!
╃(Chris-- 21:40:28
哈哈,未來(lái)無(wú)限美好!
╃(Chris-- 21:40:31
收工!
冰云- 21:40:41
SS- 21:40:42
講了2個(gè)小時(shí)了
crane- 21:40:45
謝謝 Chris
SS- 21:40:45
不錯
JAVA神化- 21:40:45
拓拔濤- 21:40:46
KIKI- 21:40:55
wuyu- 21:40:57
按sun的說(shuō)法,網(wǎng)絡(luò )就是計算機,搜索就是信息。
SS- 21:40:59
pppppppppppppppppp
SS- 21:41:05
大家鼓掌
wuyu- 21:41:07
wuyu- 21:41:10
獻花
╃(Chris-- 21:41:11
太累,要不今晚接著(zhù)把lucene的源碼講一遍,呵呵,下次吧.
墮入凡間的雨- 21:41:12
JAVA神化- 21:41:13
明天去報到
聽(tīng)說(shuō)還要軍訓 5
農民 - Javen- 21:41:15
感謝 chris 的學(xué)識與努力,也感謝大家的支持!
今天晚上到此為止。
本站僅提供存儲服務(wù),所有內容均由用戶(hù)發(fā)布,如發(fā)現有害或侵權內容,請
點(diǎn)擊舉報。