談點(diǎn)技術(shù)——關(guān)于Tag
本來(lái)不懂技術(shù)的我,因為05月23日就tag這個(gè)熱門(mén)話(huà)題發(fā)表過(guò)一點(diǎn)個(gè)人意見(jiàn)——《自由,抑或無(wú)序?!》,并有幸得到了herock | keso 等朋友的認可和推薦,其中最可貴的是duduwolf同志在【網(wǎng)摘短評】妥協(xié)用戶(hù)有時(shí)候也可認為是對用戶(hù)的不負責任一文中給出了深度的意見(jiàn)。一周之后終于有時(shí)間就此話(huà)題繼續思考下去,于是寫(xiě)在這里以便能得到大家的批評指教!
不敢妄談技術(shù)的我,今天附庸風(fēng)雅談一下自己對tag在技術(shù)層面的一點(diǎn)理解,希望不會(huì )貽笑大方。就像我在《自由,抑或無(wú)序?!》中所提到的,“用技術(shù)手段實(shí)現一勞永逸的服務(wù)策略必將淪為可恥的行為,只有融入服務(wù)商真正的心血、智慧并進(jìn)行過(guò)有效加工的服務(wù)才是最終被最廣大用戶(hù)期待、推崇和信賴(lài)的服務(wù)”——我所批評的只是像blogbus.com這種采用了簡(jiǎn)陋的技術(shù)導致用戶(hù)體驗變糟的BSP(當然,那些沒(méi)有勇敢采用tag技術(shù)的BSP并非因此而值得表?yè)P),而推崇一種能夠將tag技術(shù)進(jìn)行靈活運用、深度加工、并在一定程度上規避了因用戶(hù)濫用 / 誤用 / 個(gè)性化使用tag而導致的信息質(zhì)量降低的做法。
又犯了累贅的毛病,現在直接切入正題。
有一種技術(shù),現在已經(jīng)被一些網(wǎng)站提上研發(fā)計劃,并且盧亮曾經(jīng)有文專(zhuān)門(mén)談及,可能就是我接下來(lái)要說(shuō)的東西,只因為我對技術(shù)不夠敏感,隱約感到其中存在差別,所以在此仍然大概的說(shuō)一下。
因為不同的用戶(hù)個(gè)體之間存在的客觀(guān)差異性,在用戶(hù)進(jìn)行網(wǎng)摘操作的時(shí)候,難免會(huì )填寫(xiě)不同的tag內容。其中,一種用戶(hù)是嫌麻煩、沒(méi)有認識到它的價(jià)值、不認同它的意義而棄用甚至濫用tag;第二種用戶(hù)是因為對所摘錄內容的理解不到位而誤用tag;第三種是因為不同的用戶(hù)個(gè)體之間因為文化、觀(guān)念、思維方式等存在的天然差別而過(guò)于個(gè)性化的選用tag。所有這些情況都將導致應用tag進(jìn)行內容聚合的結果的質(zhì)量下降,即便在將來(lái)因為有效的用戶(hù)教育一定程度上減少了濫用和誤用的現象,過(guò)于個(gè)性化的選用仍將導致同樣問(wèn)題的存在。
我設想的解決方案:
首先,基于語(yǔ)言科學(xué)由人工設計一定數量的基本tag并進(jìn)行分類(lèi)整理,建立起一個(gè)基本覆蓋所有漢語(yǔ)詞匯和英語(yǔ)熱門(mén)詞匯的tag集;
其次,結合進(jìn)用戶(hù)所提交的個(gè)性化tag并引進(jìn)機器自動(dòng)分類(lèi)的方法,進(jìn)行動(dòng)
態(tài)的學(xué)習更新;
第三,人工+機器智能相結合建立“tag—分類(lèi)”的全面對應關(guān)系;
第四,用戶(hù)提交tag的時(shí)候由系統自動(dòng)進(jìn)行判斷——tag內容與摘要內容進(jìn)行適用性判斷,tag與分類(lèi)進(jìn)行關(guān)聯(lián)性判斷;
第五,判斷完成后網(wǎng)摘信息對應到相應的分類(lèi)條目,此分類(lèi)信息與用戶(hù)提交的tag關(guān)聯(lián)保存;
第六,用戶(hù)使用tag進(jìn)行查詢(xún)的時(shí)候(包括tag圖的方式),網(wǎng)摘信息中所使用的tag與查詢(xún)所使用的tag有重合且網(wǎng)摘所用tag 與摘要內容不存在矛盾的信息在最前;查詢(xún)所用的tag 僅與網(wǎng)摘信息中的摘要內容存在重合的信息在第二位;查詢(xún)所用tag 與網(wǎng)摘所用的tag 沒(méi)有重合,但有部分被歸屬到相同分類(lèi)下的信息在第三位。
這個(gè)思路應該是對盧亮提到的新聞聚類(lèi)、分類(lèi)的初級理解,但運用到網(wǎng)摘技術(shù)中,因為每條網(wǎng)摘都由用戶(hù)進(jìn)行了內容摘要,并進(jìn)行了或者優(yōu)秀、低效,或者正確、錯誤的一次處理,這在很大程度上方便了搜索引擎的二次判斷處理。
這種比較繁瑣的做法應該對應用tag進(jìn)行信息提交,并應用tag進(jìn)行信息聚合、查詢(xún)的功能質(zhì)量和效率都有所提高。至少比時(shí)下只對網(wǎng)摘信息數據庫進(jìn)行一一對應的查詢(xún)要發(fā)達得多,但這種模糊查詢(xún)帶來(lái)了一定的技術(shù)成本和系統成本,對網(wǎng)摘服務(wù)提供商來(lái)講是否值得開(kāi)發(fā)就要考慮性?xún)r(jià)比的問(wèn)題了。但是,我一直認為:各博客服務(wù)提供商、網(wǎng)絡(luò )書(shū)簽服務(wù)提供商要勇敢承擔起信息篩選、濾噪甚至是標準化的艱巨工作,在廣大用戶(hù)真正養成良好的使用習慣之前,這很有可能成為區別實(shí)力派網(wǎng)站和邊緣化網(wǎng)站的重要區隔。
希望有一天,能讓下面的四句打油詩(shī)可以言之有物:
TAG實(shí)可貴,信息價(jià)更高??v為質(zhì)量故,自由亦不拋!
聯(lián)系客服