網(wǎng)志年會(huì )也聚集了很多創(chuàng )業(yè)的團隊,各個(gè)團隊普遍都對搜索技術(shù)非常感興趣,雖然目的不是和目前大的搜索引擎競爭,但是,通過(guò)全文檢索技術(shù)將自己網(wǎng)站內部和外部的內容更好的相互引用確實(shí)是一個(gè)普遍的需求。
需求主要是兩個(gè)方面:
1 站內搜索:站內搜索能便于用戶(hù)迅速直達相關(guān)的內容;
目前很多數據庫都提供了全文檢索功能,但是對中文的支持優(yōu)先,另外就是缺乏和其他字段組合的Rank機制。
Lucene可能是目前最常用的非數據庫全文引擎,幾乎各個(gè)語(yǔ)言平臺上都有相應,也有一些支持中文分詞的解決方案出現。
2 內容類(lèi)聚:良好的引用能將網(wǎng)站內容之間形成更加網(wǎng)狀的結構,也便于SPIDER快速遍歷整個(gè)網(wǎng)站。
我們看到的Tagging(主題標簽),也是實(shí)現文章之間通過(guò)關(guān)鍵詞類(lèi)聚的一種途徑:
優(yōu)點(diǎn):比全文引擎實(shí)現成本要低,從一篇文章中提取1個(gè)或多個(gè)關(guān)鍵詞,然后將有相同主題的內容類(lèi)聚在一起。比起傳統的目錄分類(lèi):tagging更好的實(shí)現了多對多關(guān)系,更符合先寫(xiě)后分類(lèi)的用戶(hù)習慣;
缺點(diǎn):是一種很有趣的造詞游戲,但畢竟不能指望所有的用戶(hù)都會(huì )使用10PlacesOfMyCity這樣的CamelWord進(jìn)行內容串聯(lián)。
另外一個(gè)方式就是通過(guò)主題引擎的內容類(lèi)聚:手拉手,以文找文都是這方面很好的實(shí)現。
最后,不要忘記還有很多搜索引擎提供的站內搜索服務(wù):
Blogger為搜索引擎提供更加非中心化的內容來(lái)源,而另外一方面:搜索引擎也通過(guò)關(guān)鍵詞將這些blogger相互聯(lián)系在一起。大部分blogger都有這樣的體會(huì ):網(wǎng)站的主要訪(fǎng)問(wèn)來(lái)源是搜索引擎,和其他很多blogger之間相互初步了解都是先從搜索引擎上通過(guò)特定的主題關(guān)鍵詞找到的:所以說(shuō) blogger之間是通過(guò)“關(guān)鍵詞”形成的小圈子(Social Network)
引用一段朋友的對話(huà):
還有我覺(jué)得寫(xiě)blog的人都形成自己的小圈子比較多。你覺(jué)得呢?
Che: 是的
qingshuidanmu: 比如說(shuō)keso
比如說(shuō)你。
Sent at 19:58 on 星期日
qingshuidanmu: Busy
qingshuidanmu: 比如說(shuō)donews
小的說(shuō)來(lái)是幾個(gè)人,大的說(shuō)來(lái)更是一個(gè)團體。都是在這個(gè)團體中演變。
你們的文章在這里邊轉悠。
譬如轉帖,也是轉里面的圈子中人物的文章。
聯(lián)系客服