對gRaSSland項目感興趣的朋友請訂閱以下郵件列表: lists.sourceforge.net/lists/listinfo/weblucene-devel:對gRaSSland這個(gè)開(kāi)放的中文BLOG空間RSS搜索項目我初步的一些設想如下,請大家討論并補充。
第一方面:是動(dòng)態(tài)發(fā)現(Crawler):
短期: lynx -dump + 一些腳本先將可能的一些數據(比如: http://www.cnblog.org/rings/ )中的RSS導出來(lái)。
中長(cháng)期: Larbin 或者Nutch( nutch可能性較大)
第二方面:是分詞(Segment):
很高興看到開(kāi)始利用中科院計算所的漢語(yǔ)詞法分析系統ICTCLAS
進(jìn)行的基于詞表語(yǔ)法分析的分詞嘗試:近期可能會(huì )有C#和Java的版本發(fā)布
第三方面:是內容的自動(dòng)類(lèi)聚(Cluster):
內容自動(dòng)分類(lèi)是必須基于詞表分詞的:盧亮在這方面做了一些很有意思的嘗試:
http://news.booso.com
第四方面:是blog之間的鏈接關(guān)系分析(Link Analysis)
這方面: Roy在 www.8fang.net 中有很多心得。
我非常高興看到咱們這些人通過(guò)搜索引擎彼此聚合在了一起,如何將以上這些資源整合起來(lái)并首先在gRaSSland項目中展現出來(lái),就看大家的努力了。
聯(lián)系客服