欧美性猛交XXXX免费看蜜桃,成人网18免费韩国,亚洲国产成人精品区综合,欧美日韩一区二区三区高清不卡,亚洲综合一区二区精品久久

打開(kāi)APP
userphoto
未登錄

開(kāi)通VIP,暢享免費電子書(shū)等14項超值服

開(kāi)通VIP
社交標簽技術(shù)的研究
Survey on Social Tagging Techniques--Manish Gupta, Rui Li, Zhujun Yin and Jiawei Han
      這篇文章對標簽技術(shù)進(jìn)行了深入的研究,包括tag streams的屬性、標簽模型、標簽語(yǔ)義、基于標簽的推薦、標簽可視化、標簽的應用以及運用標簽時(shí)
存在的問(wèn)題。
1.簡(jiǎn)介(對tag技術(shù)的感性認識
         在W亡 b2.0中,用戶(hù)不僅可以通過(guò)豆瓣來(lái)分享圖書(shū)、通過(guò)土豆來(lái)共賞視頻,而且可以通過(guò)博客發(fā)表博文、通過(guò)Flickr發(fā)布照片、通過(guò)Youtube上傳視頻等方式來(lái)創(chuàng )造內容。用戶(hù)的這些活動(dòng)有一個(gè)共同的特征,即用戶(hù)會(huì )自由地選擇一些詞(Term)或短語(yǔ) (Phrase)來(lái)標注相關(guān)網(wǎng)絡(luò )信息資源。我們稱(chēng)用戶(hù)的這種行為為“標注 (tagging)”,用戶(hù)所選擇的詞或短語(yǔ)為“標簽(tag)”,提供標注行為的系統為“社會(huì )標簽系統”  (SocialTaggingSystem)。從某個(gè)用戶(hù)來(lái)看,標注過(guò)程本身非常簡(jiǎn)單,是個(gè)體行為,但這種個(gè)體行為的結果一標簽具有重要的意義,正是這些標簽連接起了用戶(hù)和資源。一旦標簽被hitemct匯集在了一起,形成了社會(huì )標簽,這個(gè)時(shí)候,匯集在一起的社會(huì )標簽可以看作是社會(huì )大眾對某個(gè)目標的理解、觀(guān)點(diǎn)或者看法。
         對于一個(gè)特定的web對象或資源,加標簽就是用戶(hù)給其指定標簽的過(guò)程。很多網(wǎng)站越來(lái)越流行采用社交標簽。不同的社交系統所支持的標簽資源不同。Flicker中,用戶(hù)能夠對自己或他人上傳的圖片進(jìn)行標簽;而在Delicious中,則允許用戶(hù)對每個(gè)URL進(jìn)行個(gè)性化標簽。Flicker有固定的一套標簽,而Delicious則是有用戶(hù)自定義的。在博客系統中,也允許對用戶(hù)提交的博客添加標簽。最近,又出現了三元標簽,格式如下key=value,例如:高度=1.8。
        還有一種事實(shí)標簽(rel-tag),揭示了超鏈接的目的地。在一些多媒體網(wǎng)站,例如Youtube、imeem和Metacafe等,可以對直播、點(diǎn)播、視頻和音樂(lè )進(jìn)行標簽。在Yahoo!上,對于結果可以進(jìn)行積極和消極的標注。
  1.1 元數據和固定分類(lèi)的困境
      不同網(wǎng)站共享不同的資源對象,例如圖片、新聞、書(shū)燈。通常為了支持豐富的資源對象和更多的應用例如搜索,需將這些對象和元數據進(jìn)行關(guān)聯(lián)。但是,
手工指定的元數據需要消耗很多時(shí)間[1]。此外,元數據的定義會(huì )因為系統設計者或內容提供者或分類(lèi)創(chuàng )建者的不同而不同,即具有差異性。除了將元數據和對象關(guān)聯(lián),在社交共享系統中建立分類(lèi)也是對對象進(jìn)行分類(lèi)和組織的有效方法。但是固定的靜態(tài)分類(lèi)固定和保守。[2]條目通常并不是嚴格屬于某個(gè)分類(lèi),層次化的分類(lèi)會(huì )被分類(lèi)者的認知所影響,通常帶有主觀(guān)性和偏見(jiàn)。固定的結構化分類(lèi)模式不能適應不斷增加和進(jìn)化的條目。而且這樣的社交系統需要分類(lèi)專(zhuān)家建立固定分類(lèi),用戶(hù)在創(chuàng )建對象的時(shí)候需要給對象進(jìn)行分類(lèi)指定,這樣減少了用戶(hù)對提交的主動(dòng)分析[3]。丟失了精確性、表述差異性,忽略了用戶(hù)的個(gè)性需求和觀(guān)點(diǎn)。
  1.2 大眾分類(lèi)法(folksomomy)
      大眾分類(lèi)法通過(guò)提供更簡(jiǎn)單、方便和自然的方式組織web對象來(lái)避免上述問(wèn)題。folksonomy=folk(people)+taxis(classification)+nomos(management),是
用戶(hù)決定的分類(lèi),是自底向上的。大眾分類(lèi)法可以認為是時(shí)間軸上,一系列用戶(hù)、一系列tag和一系列資源的集合。[4]
     扁平化。大眾分類(lèi)法中沒(méi)有對條目之間的關(guān)系進(jìn)行嚴格定義,所有條目屬于一個(gè)扁平命名空間,也就是沒(méi)有結構層次,一定程度上反映了用戶(hù)的詞匯表。[2]
     對用戶(hù)認知能力要求低。標簽過(guò)程不需要用戶(hù)實(shí)現的認知,或者說(shuō)門(mén)檻很低。
     具備反饋性,tag可以作為用戶(hù)之間異步溝通的一種介質(zhì);
     此外tag還具備包容性,可以將條目與熱門(mén)話(huà)題或長(cháng)期話(huà)題關(guān)聯(lián)。
     同時(shí),通過(guò)關(guān)聯(lián)的tag可以找到影響不到的東西。
     總的說(shuō)來(lái),大眾分類(lèi)法是處于傳統結構化固定化分類(lèi)法和無(wú)分類(lèi)或元數據之間的一種分類(lèi)方法。和傳統的分類(lèi)方法相比,其具備滿(mǎn)足用戶(hù)需求和語(yǔ)言的特性。
2.TAGS:why&what
     為什么要用tag以及tag的意思到底是什么
2.1用戶(hù)使用標簽的動(dòng)機
     將來(lái)獲?。河脩?hù)通過(guò)對對象進(jìn)行標簽來(lái)方便以后對該對象的獲取。標簽還能作為對自己或他人的提醒。
     分享:標簽可以用來(lái)描述資源,能夠把資源加入到概念化的群組中。
     吸引注意:熱門(mén)標簽使得用戶(hù)去查看具體的資源
     游戲:標簽可以給予內部或外部規則。例如,在ESP游戲中,用戶(hù)會(huì )猜其他用戶(hù)可能的標簽;還有一些系統可能規定條目的標簽方式,方便條目的獲取。
     自我表達:標簽允許用戶(hù)自定義來(lái)標記特定資源。
     觀(guān)念表達:標簽中解釋了用戶(hù)想要想其他用戶(hù)共享的價(jià)值觀(guān)。
2.2tag的分類(lèi)
     基于內容的標簽:標記資源里面實(shí)際存在的內容,或者說(shuō)對象
     基于情景的標簽:這類(lèi)標簽提供對象是在哪個(gè)情景之下創(chuàng )建或保存的,例如描述地理位置和時(shí)間的標簽
     屬性標簽:這類(lèi)標簽解釋對象的屬性,不能和內容直接分離。這些標簽指明了資源是關(guān)于什么或者誰(shuí)的等
     歸屬標簽:標明哪個(gè)用戶(hù)擁有該資源
     主觀(guān)標簽:表達用戶(hù)觀(guān)點(diǎn)和情感的標簽??梢該藖?lái)進(jìn)行對象推薦。
     組織化標簽:定義個(gè)性化的東西。通常和全局其他人的tag沒(méi)有關(guān)系,并和時(shí)間有關(guān)系。
     組標簽:通過(guò)這類(lèi)標簽可以產(chǎn)生結構化的大眾分類(lèi)。例如在Delicious中,用戶(hù)選擇一個(gè)URL作為其他URL的標簽。下一級結構中的條目可以其上一級作為標簽,這樣如果查找某一級中哪些資源,主需要列出有該標簽的資源。
 2.3分類(lèi)者和描述者
      加標簽者可以分為分類(lèi)者和描述者。[5]分類(lèi)者為對象分配標簽,方便之后的個(gè)性化查找。他們擁有自己的詞匯表。例如在Delicious就是一種通過(guò)分類(lèi)者類(lèi)進(jìn)行元數據定義。而描述者則是方便對象被其它人搜索到。描述者的詞匯表比分類(lèi)者的大。但是作為一個(gè)分類(lèi)者自身仍然受限于個(gè)人詞匯和主觀(guān)意念。分類(lèi)者與描述者的直觀(guān)判斷:
      a)用戶(hù)使用標簽的數量越多,他是一個(gè)描述者的可能性越高
      b)標簽表增長(cháng)的越快,用戶(hù)是一個(gè)描述者的可能性越大
      c)作為分類(lèi)者更傾向于用較少的信息去對資源進(jìn)行“編碼”
      這些直觀(guān)的判斷能夠轉化為可量化的指標:標簽率(tag ratio)--標簽和資源之間的比率;孤立標簽(orphaned tags)--被小部分資源采用的標簽部分;標簽熵(tag entropy)--反映了標簽編碼效率
2.4標簽的語(yǔ)言學(xué)分類(lèi)[6]
     功能性:表述對象功能的標簽,例如:槍
     功能性配置:被功能所定義,但是能夠被集合起來(lái)
     起源配置:描述事物為何在一起。例如:儲物倉、吃飯使用的盤(pán)子
     功能和起源:描述對象為何出現,目的是什么,或者來(lái)自于何處
     分類(lèi):用來(lái)對對象進(jìn)行合理分類(lèi)
     形容詞:對資源進(jìn)行指示,例如:紅色、好看、有趣等
     動(dòng)詞:動(dòng)作詞匯。例如:探索、跳躍等
     合適的名字:大多數標簽都屬于這類(lèi)
2.5基于tag的游戲
      ESP游戲中,有兩個(gè)用戶(hù),都會(huì )看到同樣一幅圖片,然后進(jìn)行標簽,系統對比用戶(hù)提交的標簽,從而知道相同的標簽。PhotoPlay[7]需要3-4個(gè)玩家,有四幅圖片,每個(gè)玩家從7*7的詞匯片中選擇相關(guān)聯(lián)的詞語(yǔ)對其中任意一副圖片進(jìn)行描述。
      但是這些游戲中,積分的時(shí)候,相同的標簽越多,用戶(hù)得分越高,這樣導致會(huì )丟失很多有價(jià)值的語(yǔ)義。人們傾向于填寫(xiě)圖片大眾化的屬性而不是具體的、特殊的描述,從而保證獲得高分。
3. 標簽產(chǎn)生模型
      標簽產(chǎn)生模型和很多因素相關(guān),例如:來(lái)自其他人的標簽建議、用戶(hù)的背景知識、資源內容和組織影響。
3.1 Ploya Urn產(chǎn)生模型
      直觀(guān)上,第一個(gè)影響用戶(hù)選擇標簽的因素是用戶(hù)之前制定的標簽。對條目進(jìn)行標簽的工作量也會(huì )影響用戶(hù)的決定。使用建議的標簽相對就減少了用戶(hù)自身的工作量。Pirolli和Card的信息搜尋理論證明用戶(hù)傾向于采用建議的標簽來(lái)優(yōu)化信息/工作量的比率。[8]用戶(hù)會(huì )用最小的工作量去建立適當的結構用來(lái)便于對有用資源的快速獲取。很多模型都是基于Ploya urn過(guò)程。
3.1.1 基本的Ploya Urn模型
       Golder和Huberman提出了一個(gè)基于Polya urn模型的模型。假設在urn中初始有兩個(gè)球,一個(gè)是紅色的,一個(gè)是黑色的。每一步中,一個(gè)球從urn中取得,接著(zhù)會(huì )向urn返回兩個(gè)顏色一樣的球。經(jīng)過(guò)一系列對球的操作后,相同顏色的球顏色固定,各個(gè)部分會(huì )聚集到有限的范圍之內。這個(gè)模型成功符合了已經(jīng)分配的標簽更有可能被再次選擇。但是這個(gè)模型卻不能有效滿(mǎn)足新標簽的加入。
3.1.2Yule-Simon 模型
       Yule-Simon模型[9]中每個(gè)新的標簽將會(huì )以概率p添加到標簽流。該過(guò)程可以簡(jiǎn)單描述如下,每個(gè)離散的時(shí)間段都會(huì )向文本中加入詞語(yǔ):新加入的詞是新詞的概率是p,則有1-p的概率是已經(jīng)存在于文本中,選擇新加入詞是基于當前其出現的頻率。
3.1.3擁有記憶的Yule-Simon模型
       Cattuto [10]等提出了Simon模型的一個(gè)改進(jìn)。將標簽流中標簽的次序考慮進(jìn)去。和前一個(gè)模型一樣,同樣是模仿前面標簽的指定,但是不設置固定的概率。模型可以描述如下:在協(xié)作式標簽系統中,用戶(hù)對資源標簽的過(guò)程可以認為是在構建一個(gè)文本,每次向該文件寫(xiě)入一個(gè)詞。在一個(gè)時(shí)間t,新詞以概率p加入到文本中,有1-p的概率是對文本已有詞的拷貝,如果是已有詞的拷貝則在一定時(shí)間內回退x步.
3.2語(yǔ)言模型
       資源內容會(huì )影響標簽的產(chǎn)生。這樣,標簽的產(chǎn)生可以通過(guò)使用某種語(yǔ)言模型像隱藏的狄利克雷分配模型[11]。標簽是對現實(shí)世界經(jīng)驗的一種簡(jiǎn)單語(yǔ)言。Zhou等人[12]提出了一個(gè)概率產(chǎn)生模型用來(lái)產(chǎn)生文檔內容和相應的標簽。這有助于對條目、文檔和用戶(hù)進(jìn)行主體性分析。這個(gè)模型可以描述如下:每個(gè)在文檔d中的條目w都認為是從源x產(chǎn)生而來(lái)的;通過(guò)x的條件概率分布,找到一個(gè)話(huà)題z;對于給定的話(huà)題z,w最后是通過(guò)z的條件概率分布得出的。對于文檔標簽來(lái)說(shuō),相似的,文檔d的標簽w是由用戶(hù)x產(chǎn)生的。對于特定的用戶(hù),有話(huà)題的條件分布,z就是從中選取的。隱藏的話(huà)題又最后生成了標簽w。
3.3其它影響因素
      除了上面的模型,還有其他因素影響人們使用標簽。
       Sen等人[13]提出了三個(gè)影響個(gè)人使用標簽的因素:1.過(guò)去的標簽行為 2.組織內其他成員的標簽行為 3.標簽展示的選擇算法
       Flicker[14]中組織對標簽選擇的影響可以通過(guò)Marlow的論文知道[14]。其中一個(gè)特性是用戶(hù)更傾向于跟從其朋友上傳的照片;而隨機的用戶(hù)群有更小的重復標簽,當他們之間的聯(lián)系越零散,該現象更具普遍意義。
4標簽分析
   為了更好的理解社交標簽數據,已經(jīng)開(kāi)展了有很多針對社交標簽數據的分析工作
4.1標簽分布
   研究者發(fā)現其中最重要的一個(gè)特性就是,冪次定律(power law)。
4.1.1 標簽系統的詞匯表
   對很多不同數據集中標簽的研究表明,標簽總數上是隨時(shí)間遵從冪次定律;但是最新研究表明,一定程度上是線(xiàn)性的。
4.1.2資源的標簽增長(cháng)
   對于單個(gè)資源,其標簽的詞匯表的增長(cháng)在時(shí)間上是遵從指數為2/3的冪次定律的[15]。而且標簽流的頻率分布也是遵從冪次定律的。[16]Cattuto等人的研究表明,不同資源詞匯表的分布和指數r有關(guān)。前1000個(gè)靠前的資源分布符合參數r大約為0.71的高斯曲線(xiàn)。這表明排名越高的資源其增長(cháng)越符合一定規律。
4.1.3 用戶(hù)標簽詞匯增長(cháng)
   同樣有針對特定用戶(hù)使用標簽的研究。Golder和Huberman[17]的研究表明當有新資源加入時(shí)用戶(hù)的直接標簽(用戶(hù)自己定義的,不是copy別人的)增長(cháng)呈線(xiàn)性。但是Marlow等人對多個(gè)用戶(hù)的研究表明,圖片中直接標簽,其標簽數量增長(cháng)是隨時(shí)間減少的。
4.2 區分標簽的語(yǔ)義
   標簽是由用戶(hù)定義的標識,具有語(yǔ)言意義。對這方面的研究包括三個(gè)方面:標識相似的標簽、將標簽映射到分類(lèi)、對特定類(lèi)型標簽的抽取。
4.3標簽之間成對的關(guān)系分析
   為了衡量標簽之間的相似性,學(xué)者們提出了很多不同的模型用來(lái)計算標簽的相似性。其中很多模型都是基于一個(gè)簡(jiǎn)單假設:相似的標簽會(huì )被用來(lái)標識同樣的資源,相近的資源被相似的標簽定義??梢越炔繕撕炾P(guān)系圖,在該圖里面標簽作為節點(diǎn),如果兩個(gè)標簽同時(shí)出現,則兩者有邊連接,邊的權重是標簽之間的cosine-distance.這種結構化的標簽圖,為研究人們如何標簽和分布式大眾分類(lèi)法中的語(yǔ)義結構提供重要參考。
4.3.1 通過(guò)標簽抽取拓撲
   另外一種研究標識標簽語(yǔ)義的方式就將標簽映射到已有的拓撲中。自動(dòng)的對標簽進(jìn)行分類(lèi)到語(yǔ)義類(lèi)別中,使得我們能夠更好的理解用戶(hù)對對象的標注。最簡(jiǎn)單的就是字符串的匹配。Sigurbjornsson等人[18]通過(guò)字符串匹配將Flicker的標簽映射到WordNet語(yǔ)義分類(lèi)中。他們發(fā)現Flicker中51.8%的標簽能夠映射到語(yǔ)義分類(lèi)中。Overell[19]等人設計一套使用wiki和open目錄對標簽進(jìn)行自動(dòng)分類(lèi)的系統。使用結構化的模式例如從元數據中抽取的分類(lèi)和模板來(lái)對Flicker標簽進(jìn)行分類(lèi)。他們構建了一個(gè)分類(lèi)器,將wiki中的文章分為12種語(yǔ)義類(lèi)別。然后通過(guò)使用錨文本將Flicker的標簽映射到wiki文章。由于wiki文章已經(jīng)分過(guò)類(lèi)別了,Flicker的標簽會(huì )被分成同樣的類(lèi)別。他們將事物分類(lèi)為what,where和when。結果表明,70%的標簽都能被分類(lèi)。
4.3.2抽取地點(diǎn)和事件語(yǔ)義
      標簽同樣解釋了特定的信息,例如地點(diǎn)和時(shí)間。Rattenbury等人[20]研究了如何通過(guò)Flicker的標簽抽取地點(diǎn)和時(shí)間語(yǔ)義。對于地點(diǎn)l,通常是圖片p產(chǎn)生的地方,但也有可能是圖片中事物所在地;對于時(shí)間t,通常是圖片p獲取的時(shí)間,但也可能是圖片上傳的時(shí)間。需要確定,標簽是否代表了地點(diǎn)或時(shí)間。原理就是一個(gè)事件(或地點(diǎn))是和特定時(shí)間(或區域)關(guān)聯(lián)的。一個(gè)事件標簽的使用次數在一個(gè)小時(shí)間段內出現的次數比在其他時(shí)間段內出現的次數高很多。時(shí)間段的大小是個(gè)關(guān)鍵因素;其他因素還有其他時(shí)間段和特定時(shí)間段的差異性。對于地點(diǎn)的標識,用地點(diǎn)l去取代時(shí)間t。
4.4標簽和關(guān)鍵字
    標簽有利于搜索,那么它和關(guān)鍵字的比較如何呢。在對英文文檔的搜索中,用戶(hù)自定義標簽和關(guān)鍵字的性能相當。[21]絕大多數沒(méi)有滿(mǎn)足的關(guān)鍵字搜索,主要原因是由于用戶(hù)錯誤拼寫(xiě)或自定義造成的。
5 標簽的可視化
    標簽云已經(jīng)成為web門(mén)戶(hù)支持瀏覽的一個(gè)功能,不同的標簽選擇算法對標簽進(jìn)行選擇展示。標簽云具有的功能有:
    1.搜索 標簽云可以快速的定位特定的標識某種概念的關(guān)鍵詞
    2.瀏覽 標簽云可以很好的支持無(wú)特定目地瀏覽
    3.提要 標簽云可以被看做底層數據的具象表示,很多信息可以直觀(guān)的得到
    4.識別 通過(guò)觀(guān)察與某一實(shí)體相關(guān)的標簽云,可以有效地識別出這一實(shí)體
5.1用于瀏覽和搜索的標簽云
    Sinclair和Cardrew[22]討論了采用標簽比搜索更好的使用場(chǎng)景。他們通過(guò)實(shí)驗,發(fā)現如果用戶(hù)找尋的信息是特定的,則傾向于用搜索;如果比較普遍,則喜歡使用標簽。 
    標簽云的好處:給用戶(hù)到何處如查找信息的提示、對用戶(hù)的認知能力要求相對低、讓用戶(hù)搜索者能很好的熟悉相關(guān)領(lǐng)域
    標簽云的壞處:標簽云使有用的信息變得難以理解、用標簽云響應問(wèn)題的請求次數比采用搜索的次數多、很多用戶(hù)認為標簽云不能減少搜索范圍、將近一半的文章都不能通過(guò)標簽云訪(fǎng)問(wèn)到
5.2標簽云中標簽的選擇
      由于標簽云占有的空間有限,所以需要對標簽進(jìn)行合適的選擇。Hasson-Montero和Herrero-Solana描述了標簽云可視化的多維系統。標簽選擇基于有用性,其決定因素有:對同一資源不同標簽的代表地位(次序)、不同標簽代表的資源多少、對其他標簽未標識資源的覆蓋數量。標簽的語(yǔ)義關(guān)系是由他們的相似性決定的,相似性由Jasscard相似系數進(jìn)行量化。
      Begelman[23]提出了一個(gè)聚類(lèi)算法,用來(lái)找尋關(guān)聯(lián)性較強的標簽。該算法基于對同時(shí)出現的tag對進(jìn)行數量統計,設定閥值來(lái)決定是否使用。為了設置閥值:從尾部的最右端開(kāi)始找到統計同時(shí)成對出現tag的數目,這些數目構成一個(gè)函數,到達一階導數最大值的點(diǎn)(就是二階導數從整數變?yōu)樨摂档狞c(diǎn))而且還要查看找尋的路徑是否足夠長(cháng)。結果保存在一個(gè)稀疏矩陣中,其中每個(gè)元素的值就是兩個(gè)tag之間的相似度。
5.3標簽的結構化
     Caro[24]等人提出了tagFlake系統,在標簽云中進(jìn)行語(yǔ)義導航;從文本文檔中抽取顯著(zhù)的標簽和條目,然后將它們組織成結構化便于進(jìn)行導航。組織的過(guò)程如下:子條目在內容上目依賴(lài)于父條目。
5.4標簽云的展示格式
     標簽云可以以多種形式展示。Bielenberg和Zacher提出了圓形云[25],和典型的矩形云相比,越重要的標簽越是靠近中心。標簽的字體和與中心的距離體現了標簽的重要性,但是標簽之間的距離不代表它們之間的相似度。
     標簽的大小通常用來(lái)代表其出現的頻率,一個(gè)典型的標簽云中有大大小小的文本散布著(zhù)。這造成空白區域的浪費。為了避免空間的浪費,Owen和Lemire等人[26]提出了EDA算法,將區域最小化并將標簽聚類(lèi)。
5.5標簽演變可視化
     標簽通常有時(shí)間維度。將其演變過(guò)程可視化,是個(gè)研究話(huà)題。Dubinko等人研究了在Flicker中標簽演變可視化。通過(guò)flash的方式向用戶(hù)展示其標簽的演變過(guò)程。在該展示中,可以認為有河流和瀑布兩種抽象的對象,時(shí)間軸(橫向河流)和數量或頻率(縱向河流),標簽則是在兩條橫向河流上的瀑布。
     還可以通過(guò)展示特定資源標簽隨時(shí)間的變化,可以看出特定資源的標簽穩定性。
5.6標簽云的demo
      網(wǎng)絡(luò )上有很多將標簽可視化的demo。Grafolicou(http://www.neuroticweb.com/recursos/del.icio.us-graphs/8)揭示了在Delicious上特定URL被標簽的時(shí)間和次數。HubLog展示了和給定標簽相關(guān)的標簽圖。雖然這些demo顯示了社交標簽的關(guān)聯(lián)性,但是卻沒(méi)有幫助用戶(hù)更好的瀏覽。有的標簽云顯示的時(shí)候對用戶(hù)使用過(guò)tag進(jìn)行隨機展示,展示的字體大小和標簽使用的次數相關(guān)。
6.標簽推薦
      標簽系統可以向用戶(hù)進(jìn)行標簽推薦,然后用戶(hù)可以從中選擇一個(gè)或者自定義新的標簽。標簽推薦可以提升用戶(hù)體驗,也可以豐富標簽。標簽推薦可以基于標簽的質(zhì)量、標簽同現、
6.1標簽質(zhì)量
      標簽質(zhì)量可以指導推薦過(guò)程。標簽質(zhì)量可以通過(guò)其覆蓋面和熱門(mén)程度衡量,高質(zhì)量的標簽可以用來(lái)推薦。Xu等人[27]提出了關(guān)于標簽質(zhì)量的準則,提出了基于該準則的一個(gè)聯(lián)合標簽推薦算法。一個(gè)好的標簽合并過(guò)程要考慮到被標簽對象的多樣性;對一個(gè)對象的標簽數量應該被最小化,合并后的標簽所標注的對象也較少??紤]到有的時(shí)候會(huì )在標簽中加入組織信息,需要將這些信息進(jìn)行剔除。該算法推薦的標簽,被大多數人采用,而且減少對重復概念的出現來(lái)對事物進(jìn)行多面覆蓋。
6.2標簽同現
   一個(gè)用來(lái)進(jìn)行標簽推薦的重要準則就是標簽同現。某個(gè)對象同時(shí)出現的標簽會(huì )被用來(lái)進(jìn)行推薦。Sigurbjornsson和Zwol[18]提出了四種進(jìn)行標簽推薦的策略。(詳見(jiàn)翻譯)
6.3使用詞語(yǔ)、文檔和標簽共同的信息
      共同的信息也是進(jìn)行標簽推薦另一準則。Song等人使用雙向泊松混合模型(Two-way Poisson Mixture Model)為資源建模,并基于此模型對目標資源進(jìn)行分類(lèi),最后基于資源所在的類(lèi)別內的標簽排序進(jìn)行標簽推薦?;谫Y源內容的標簽推薦算法推薦與資源內容相關(guān)性較大的標簽,可以滿(mǎn)足用戶(hù)對資源的內容管理方面的需求。此類(lèi)方法產(chǎn)生的推薦結果一般獨立于目標用戶(hù),故在一方面,其時(shí)間性能較高,容易滿(mǎn)足實(shí)時(shí)推薦的要求,但在另一方,對用戶(hù)的標簽使用偏好考慮較少,難以滿(mǎn)足用戶(hù)的個(gè)性化需求。
6.4使用對象的特性
      例如從圖像中提出的內容特性可以用來(lái)進(jìn)行標簽推薦。liu[28]等人提出了一種標簽分級模式,自動(dòng)地對同一圖像的標簽根據相關(guān)性進(jìn)行分級。為了預測標簽相關(guān)性,作者首先得到基于概率密度的標簽初始相關(guān)性,然后通過(guò)對標簽相似圖的隨機游走來(lái)對相關(guān)性進(jìn)行修正。由于所有的標簽都通過(guò)和圖片的相似度來(lái)進(jìn)行分級,這樣通過(guò)底層的可視特征找到k個(gè)最近的鄰居,用來(lái)向用戶(hù)進(jìn)行推薦。Wu等人[29]將標簽推薦看做是一個(gè)考慮多種形態(tài)包括標簽同現和視覺(jué)相關(guān)性的機器學(xué)習過(guò)程。視覺(jué)相關(guān)性來(lái)自VLM(視覺(jué)語(yǔ)言模型),用來(lái)在視覺(jué)領(lǐng)域對標簽的內容進(jìn)行建模。對這些分級特性進(jìn)行合并的學(xué)習是根據Rankboost算法。
7標簽的應用
   社交標簽可以用來(lái)多個(gè)領(lǐng)域,包括索引、搜索、產(chǎn)生分類(lèi)、聚集、社交興趣發(fā)現等等。
7.1索引
      標簽可以用來(lái)對站點(diǎn)進(jìn)行快速索引。用戶(hù)通過(guò)對其朋友和同事訪(fǎng)問(wèn)的站點(diǎn)進(jìn)行標簽就可以不需要通過(guò)搜索引擎去訪(fǎng)問(wèn)這些站點(diǎn)。同時(shí)標簽可以用來(lái)進(jìn)行更深的索引。很多網(wǎng)頁(yè)被標記在站點(diǎn)中,通常不容易被其他站點(diǎn)鏈接。Carmel等人的研究表明,在搜索時(shí)通過(guò)對標簽質(zhì)量的進(jìn)行適當選取,搜索效率提高了。
7.2搜索
       標簽可以用十分方便的用來(lái)進(jìn)行web搜索、個(gè)性化搜索和企業(yè)搜索。Sckenkel等人[30]提出了遞增的top-k算法,通過(guò)社交和語(yǔ)義的擴展利用標簽來(lái)響應請求。社交標簽利于搜索體現在兩個(gè)方面,一個(gè)是標簽是對網(wǎng)頁(yè)的很好概述,第二個(gè)是標簽的數目代表了網(wǎng)頁(yè)的熱度。[31]Xu等人[32]提出了一個(gè)框架,在該框架中頁(yè)面的rank不僅僅是請求和網(wǎng)頁(yè)內容之間條目的匹配還包括用戶(hù)興趣和網(wǎng)頁(yè)話(huà)題的匹配。
7.3產(chǎn)生分類(lèi)
      Hey-mann和Garcia-Molina提出了將大量標簽轉換為結構化的標簽分類(lèi)算法。Schmitz等人討論了對大眾分類(lèi)法進(jìn)行分析和結構化的方法,還有如何將結果用于拓撲學(xué)習。大眾分類(lèi)法可以給公共的分類(lèi)添加額外價(jià)值,能夠使用戶(hù)在分類(lèi)中對感興趣的條目進(jìn)行存儲、維護和組織[33]。
7.4聚集和分類(lèi)
      可以將擁有相同標簽的文章進(jìn)行歸類(lèi)[34]。
7.5社交興趣的發(fā)現
      Li等人[35]研究發(fā)現用戶(hù)喜歡用自己感興趣的標簽對內容進(jìn)行標記。
7.6增強瀏覽效果
      Zubiaga等人[36]建議可以利用標簽進(jìn)行導航:中心化瀏覽(圍繞一個(gè)點(diǎn)建立信息空間)、流行導航、過(guò)濾(社交標簽可以用來(lái)將用戶(hù)不需要的東西過(guò)濾)。
7.7對大眾分類(lèi)的整合
      對不同大眾分類(lèi)的標簽可以通過(guò)標簽的同時(shí)出現和聚集進(jìn)行整合。分布式的用戶(hù)標簽云可以幫助建立更完善的用戶(hù)簡(jiǎn)歷[37]。TAGMAS是一個(gè)聯(lián)合系統,提供對web2.0平臺上分布式的標簽資源整合。這樣的系統可以用來(lái)進(jìn)行標簽的自動(dòng)生成、大眾分類(lèi)的加載(允許從folk服務(wù)器獲得一個(gè)大眾分類(lèi))、資源注釋和資源搜索(基于標簽進(jìn)行過(guò)濾從而定位資源)。
8標簽過(guò)程的缺點(diǎn)
       雖然標簽很有作用,但是有很多問(wèn)題存在,例如:信息垃圾、規范化和模糊問(wèn)題。其他問(wèn)題還有貧乏、非一致性等。
8.1垃圾
       垃圾制造者可以對標簽資源進(jìn)行非法使用,擴散自己的興趣。Wetzker等人發(fā)現了一個(gè)現象,單個(gè)用戶(hù)對同一個(gè)博客站點(diǎn)進(jìn)行大量標簽的標注。同時(shí)還觀(guān)察到用戶(hù)會(huì )將這些標注短時(shí)間內上傳,而且很少再次上傳。他們認為這類(lèi)垃圾制造者的行為具備的特征有:活躍、對較少領(lǐng)域進(jìn)行標簽、對單個(gè)資源的標注程度高、大容量提交。為了發(fā)現此類(lèi)垃圾制造者,他們提出了關(guān)注度發(fā)散的概念,來(lái)減少此類(lèi)垃圾而不需要進(jìn)行過(guò)濾。將標簽關(guān)注度定義為在某個(gè)時(shí)間內使用該標簽的用戶(hù)數;在標簽第一次提交的時(shí)候就進(jìn)行初始化,這樣個(gè)人對標簽喜好的影響會(huì )受到限制。
8.2規范化和模糊
       由于不同的用戶(hù)對文檔標注不同,使得大眾分類(lèi)法具有模糊性。用戶(hù)常常將多個(gè)單詞聯(lián)合成一個(gè)標簽,照成信息的丟失。單個(gè)詞語(yǔ)會(huì )丟失相應的次序。發(fā)大眾分類(lèi)法沒(méi)有提供規范的標簽選擇和組織準則,包括如何使用標題和標點(diǎn)以及詞語(yǔ)的次序等。此外,不同領(lǐng)域的人處出于不同目的會(huì )從不同的層次上對資源進(jìn)行標簽。
       Guy和Tonkin等人指出無(wú)用的標簽導致的原因包括了錯誤的拼寫(xiě)、不好的編輯(往往并不是組合);標簽并不能轉換為時(shí)間和數量;個(gè)性化的標簽可能無(wú)普遍意義,例如:mydog;有的單個(gè)標簽在數據中只出現了一次。如何對標簽進(jìn)行轉換,比較流行的是對地理標簽的轉換,一種方法就是將經(jīng)緯度寫(xiě)成單個(gè)標簽,在Flicker中有2%的標簽是這樣表示的。
       Lars Pind提出了針對規范化的一些建議,包括:1.向用戶(hù)推薦標簽 2.自動(dòng)找到同義詞 3.幫助用戶(hù)使用其他人的標簽 4.將標簽結構化 5.標簽可以根據內容進(jìn)行更新。
9.總結和愿景
9.1分析
       最近的研究都是針對單個(gè)標簽系統而言。但作為用戶(hù)自主產(chǎn)生的內容,標簽在微博和查詢(xún)日志中肯定因人而異。例如,標簽的增長(cháng)在微博和圖片中有何不同?微博的標簽模型和圖片的有何不同。
9.2對系統設計的改進(jìn)
       目前的標簽系統只支持一種標簽,研究者們已經(jīng)在研究如何從扁平的標簽空間中抽取結構化的拓撲。一個(gè)標簽系統同樣支持標簽討論方便用戶(hù)探討出資源合理的標簽。結構化的標簽同樣得到支持,例如Key-value對。
9.3個(gè)性化的標簽推薦
       用戶(hù)是描述著(zhù)還是組織者?情景如何?基于用戶(hù)的歷史,用戶(hù)選擇新標簽的可能有多大?用戶(hù)之前使用的標簽中,哪些是其朋友使用過(guò)的?對于某個(gè)資源,用戶(hù)是否會(huì )利用已有的標簽進(jìn)行標注或采用新的標簽?==
9.4更多應用
      一些有趣的應用,例如:用戶(hù)標簽進(jìn)行地理位置分析、對擁有相同或相似標簽的資源進(jìn)行mashup。。。


[1]A. Mathes. Folksonomies - cooperative classification and communication through shared metadata. Computer
Mediated Communication, December 2004.
[2]Emanuele Quintarelli. Folksonomies: power to the people.
[3]M. Heckner, M. Heilemann, and C. Wolff. Personal information management vs. resource sharing: Towards
a model of information behaviour in social tagging systems. In Int’l AAAI Conference on Weblogs and Social Media (ICWSM), San Jose, CA, USA, May 2009
[4]Klaas Dellschaft and Steffen Staab. An epistemic dynamic model for tagging systems. In HT ’08: Proceedings of the nineteenth ACM conference on Hypertext and hypermedia, pages 71-80, New York, NY, USA, 2008, ACM.
[5]Christian Krner. Understanding the motivation behind tagging. ACM Student Research Competition - Hypertext 2009, July 2009.
[6]Csaba Veres. The language of folksonomies: What tags reveal about user classification. In Natural Language Processing and Information Systems, volume
3999/2006 of Lecture Notes in Computer Science, pages 58–69, Berlin / Heidelberg, July 2006. Springer.
[7]Nicholas Diakopoulos and Patrick Chiu. Photoplay: A collocated collaborative photo tagging game on a horizontal display. preprint (2007) available
[8]Peter Pirolli. Rational analyses of information foraging on the web. Cognitive Science, 29(3):343-373, 2005.
[9]Herbert A. Simon. On a class of skew distribution functions. Biometrika, 42(3/4):425–440, 1955.
[10]Klaas Dellschaft and Steffen Staab. An epistemic dynamic model for tagging systems. In HT ’08: Proceedings of the nineteenth ACM conference on Hypertext
and hypermedia, pages 71–80, N
[11]David M.Blei, Andrew Y.Ng, and Micheal I.Jordan. Latent dirichlet allocation. J.Match.Learn.Res, 3:993-1022, 2003.
[12]Ding Zhou, Jiang Bian, Shuyi Zheng, Hongyuan Zha, and C. Lee Giles. Exploring social annotations for information retrieval. In WWW ’08: Proceeding of the 17th international conference on World Wide Web, pages 715–724, New York, NY, USA, 2008. ACM.
[13] Shilad Sen, Shyong K.Lam et al. tagging, communities,vocabulary,evolution.In CSCW'06, pp.181-190, Nov 2006, ACM.
[14]Cameron Marlow et al. tagging paper, taxonomy, flickr, academic article, toread. In HYPERTEXT'06, pp.31-40, 2006, ACM.
[15]Ciro Cattuto et al. Semiotic dynamics and collaborative tagging. PNAS, 104(5):1461-1464, January 2007.
[16]Klaas Dellschaft et al. An epistemic dynamic model for tagging system. HT'08, pp.71-80, New York, NY, USA, 2008.
[17]Scott Golder and Bernardo A.Huberman. The structure of collaborative tagging systems, Aug 2005.
[18]Brkur Sigurbjrnsson et al. Flickr tag recoomendation based on collective knowledge. WWW'08, pp.327-336, 2008.
[19]Simon Overell et al. Classifying tags using open content resources. WSDM'09, pp.64-73, New York, 2009.
[20]Tye Rattenbury et al. Towards automatic extraction of event and place semantics from flickr tags. SIRIR'07.
[21]Xin Li at al. Tag-based social interest discovery. WWW'08, 2008.
[22]James Sinclair et al. The folksonomy tag cloud:when is it useful? 2008.
[23]Griogry Begelman et al. Automated clustering:Improving search and exploration in the tag space, 2006. 
[24]Luigi Di Caro et al. Using tagflake for considering navigable tag hierarchies from tag clouds. KDD, pp.1069-1072, ACM, 2008.
[25]K.Bielenberg. Groups in Social Software: Utilizing Tagging to Integrate Individual Contexts for Social Navigation.
[26]Owen Kaser et al. Tag-cloud drawing:Algorithms for cloud visualization, May 2007.
[27]Zhichen Xu et al. Towards the sematic web: Collaborative tag suggestions. WWW'06, 2006.
[28]Dong Liu et al. Tag ranking. WWW'09, USA, April 2009.
[29]Lei Wu et al. Learning to tag. WWW'09, USA, 2009.
[30]Ralf Schenkel et al. Efficient top-k querying over social-tagging networks. SIGIR'08, USA, 2008.
[31]Shenghua Bao et al. Optimizing web search using social annotation. WWW'07, USA, 2007.
[32]Shengliang Xu et al. Exploring folksonomy for personalized search. SIGIR'08, USA, 2008.
[33]Louise F. Spiteri. Structure and form of folksonomy tags: The road to the public library catalogue. 2007.
[34]Chirstopher H.Brooks et al. Improved annotation of the blogsphere via autotagging and hierarchical clustering. WWW'06.
[35]Xin Li et al. Tag-based social interest discovery. WWW'08, 2008.
[36]Arkaitz Zubiaga. Enhangcing navigation on wikipedia with social tags. 09.  
[37]Martin Szomszor et al. Correlating user profiles from multiple folksonomies. June, 2008.C

本站僅提供存儲服務(wù),所有內容均由用戶(hù)發(fā)布,如發(fā)現有害或侵權內容,請點(diǎn)擊舉報。
打開(kāi)APP,閱讀全文并永久保存 查看更多類(lèi)似文章
猜你喜歡
類(lèi)似文章
電教實(shí)習四
網(wǎng)絡(luò )信息分類(lèi)法的新亮點(diǎn)——Folksonomy
Tag與Tagging
什么是Folksonomy?
元數據、自由分類(lèi)法(Folksonomy)和大眾的因特網(wǎng)
基于標簽的folksonomy機制研究——以CiteUlike為例
更多類(lèi)似文章 >>
生活服務(wù)
分享 收藏 導長(cháng)圖 關(guān)注 下載文章
綁定賬號成功
后續可登錄賬號暢享VIP特權!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服

欧美性猛交XXXX免费看蜜桃,成人网18免费韩国,亚洲国产成人精品区综合,欧美日韩一区二区三区高清不卡,亚洲综合一区二区精品久久