欧美性猛交XXXX免费看蜜桃,成人网18免费韩国,亚洲国产成人精品区综合,欧美日韩一区二区三区高清不卡,亚洲综合一区二区精品久久

打開(kāi)APP
userphoto
未登錄

開(kāi)通VIP,暢享免費電子書(shū)等14項超值服

開(kāi)通VIP
CSDDN特約專(zhuān)稿:個(gè)性化推薦技術(shù)漫談
CSDDN特約專(zhuān)稿:個(gè)性化推薦技術(shù)漫談

 

如果說(shuō)過(guò)去的十年是搜索技術(shù)大行其道的十年,那么個(gè)性化推薦技術(shù)將成為未來(lái)十年中最重要的革新之一。目前幾乎所有大型的電子商務(wù)系統,如Amazon、CDNOW、Netflix等,都不同程度地使用了各種形式的推薦系統。而近來(lái)以“發(fā)現”為核心的網(wǎng)站正開(kāi)始在互聯(lián)網(wǎng)上嶄露頭角,比如側重于音樂(lè )推薦的八寶盒,側重于圖書(shū)推薦的豆瓣等等。
 
那么,一個(gè)好的推薦系統需要滿(mǎn)足什么目標呢?
個(gè)性化推薦系統必須能夠基于用戶(hù)之前的口味和喜好提供相關(guān)的精確的推薦,而且這種口味和喜歡的收集必須盡量少的需要用戶(hù)的勞動(dòng)。推薦的結果必須能夠實(shí)時(shí)計算,這樣才能夠在用戶(hù)離開(kāi)網(wǎng)站前之前獲得推薦的內容,并且及時(shí)的對推薦結果作出反饋。實(shí)時(shí)性也是推薦系統與通常的數據挖掘技術(shù)顯著(zhù)不同的一個(gè)特點(diǎn)。
 
一個(gè)完整的推薦系統由三部分構成:行為記錄模塊、模型分析模塊和推薦模塊。行為記錄模塊負責記錄能夠體現用戶(hù)喜好的行為,比如購買(mǎi)、下載、評分等。這部分看起來(lái)簡(jiǎn)單,其實(shí)需要非常仔細的設計。比如說(shuō)購買(mǎi)和評分這兩種行為表達潛在的喜好程度就不盡相同完善的行為記錄需要能夠綜合多種不同的用戶(hù)行為,處理不同行為的累加。模型分析模塊的功能則實(shí)現了對用戶(hù)行為記錄的分析,采用不同算法建立起模型描述用戶(hù)的喜好信息。最后,通過(guò)推薦模塊,實(shí)時(shí)的從內容集篩選出目標用戶(hù)可能會(huì )感興趣的內容推薦給用戶(hù)。因此,除了推薦系統本身,為了實(shí)現推薦,還需要一個(gè)可供推薦的內容集。比如,對于音樂(lè )推薦系統來(lái)說(shuō),一個(gè)音樂(lè )庫就是這樣的內容集。我們對內容集本身需要提供的信息要求非常低,在經(jīng)典的協(xié)同過(guò)濾算法下,內容集甚至只需要提供ID就足夠。而對于基于內容的推薦系統來(lái)說(shuō),由于往往需要對內容進(jìn)行特征抽取和索引,我們就會(huì )需要提供更多的領(lǐng)域知識和內容屬性。這種情況下,還是拿音樂(lè )舉例,歌手、流派之類(lèi)的屬性和音頻信息就成為必需的內容集信息。

迄今為止在個(gè)性化推薦系統中,協(xié)同過(guò)濾(Collaborative Filtering)技術(shù)是應用最成功的技術(shù)。目前國內外互聯(lián)網(wǎng)上有許多大型網(wǎng)站已經(jīng)應用這項技術(shù)為用戶(hù)更加智能的推薦內容。如果你想要研究協(xié)同過(guò)濾,一定不能錯過(guò)MovieLens(http://movielens.umn.edu/)。它是協(xié)同過(guò)濾最著(zhù)名的研究項目之一。
 
第一代的協(xié)同過(guò)濾技術(shù),又被稱(chēng)為基于用戶(hù)(User-based)的協(xié)同過(guò)濾?;谟脩?hù)的協(xié)同過(guò)濾,基本原理是基于用戶(hù)行為選擇的相關(guān)性。用戶(hù)的行為選擇這里指的是下載、購買(mǎi)、評價(jià)等等能夠顯式或者隱式體現出用戶(hù)喜好的行為。在一個(gè)典型的基于協(xié)同過(guò)濾技術(shù)的推薦系統中,輸入數據通??梢员硎鰹橐粋€(gè)m×n 的用戶(hù)內容矩陣R,m是用戶(hù)數,n是內容數。矩陣的值與內容的類(lèi)型有關(guān),通常由行為記錄模塊決定。如果內容是網(wǎng)上書(shū)店中的書(shū),則矩陣的值可以表示用戶(hù)購買(mǎi)與否,例如1表示購買(mǎi),0表示沒(méi)有購買(mǎi);或者表示用戶(hù)對它的評價(jià)有多高,這樣的評價(jià)值就可以有幾個(gè)等級,比如常見(jiàn)的1~5級評價(jià)制。
 
基于用戶(hù)的協(xié)同過(guò)濾,通過(guò)比較目標用戶(hù)的一系列行為選擇和其他用戶(hù)之間的相似性,來(lái)識別出一組相互具有類(lèi)似喜好的用戶(hù),又可以稱(chēng)為“同好”。一旦系統能夠識別一個(gè)用戶(hù)的同好用戶(hù),就能夠將他們最感興趣的內容作為當前用戶(hù)的推薦結果推薦給這個(gè)用戶(hù)。也就是說(shuō),以前的行為選擇與你相似的用戶(hù),在以后的行為中很可能也會(huì )和你相似。因此將這些用戶(hù)做為基準來(lái)向你推薦內容。
 
協(xié)同過(guò)濾的核心問(wèn)題是尋找與目標用戶(hù)興趣相近的一組用戶(hù)。這種相似用戶(hù)通常被稱(chēng)為最近鄰居(Nearest Neighbor)。用戶(hù)之間的相似度是通過(guò)比較兩個(gè)用戶(hù)的行為選擇矢量得到的。目前,比較行為選擇矢量的相似度計算方法有許多種,比較經(jīng)典的算法包括泊松相關(guān)系數(Person Correlation Coefficient)和余弦相似性(Cosine-based Similarity)。
 
“最近鄰居”產(chǎn)生后,我們就能夠計算得到用戶(hù)最可能感興趣的內容集(也叫做TopN推薦集)。為了得到推薦集,分別統計“最近鄰居”中的用戶(hù)對不同內容的興趣度,取其中排在最前面的內容作為推薦集。下面是一個(gè)簡(jiǎn)化的示例:假如用戶(hù)張三有兩個(gè)同好:李四和王五。
 
張三喜歡看電影A;
李四喜歡看電影A,B,C和D;
王五喜歡看電影A,B,D,E和F;
 
這樣,推薦系統就能夠過(guò)濾出相似用戶(hù)都喜歡的電影B和D作為張三最可能也會(huì )喜歡的電影推薦給張三。
 
基于用戶(hù)的協(xié)同過(guò)濾技術(shù)在個(gè)性化推薦系統中獲得了極大的成功,但它有自身的局限性。推薦集的產(chǎn)生方式意味著(zhù)一個(gè)內容只有已經(jīng)被用戶(hù)選擇(購買(mǎi))后才有機會(huì )被推薦給其他用戶(hù)。對于一個(gè)網(wǎng)上書(shū)店來(lái)說(shuō),新上架的書(shū)因為還沒(méi)有被相當數量的用戶(hù)購買(mǎi)或者評價(jià)的記錄,便很少有機會(huì )被用戶(hù)的“最近鄰居”篩選進(jìn)入推薦集。這個(gè)問(wèn)題,也被稱(chēng)之為協(xié)同過(guò)濾的“冷啟動(dòng)”問(wèn)題。
 
此外,因為計算用戶(hù)的相似度時(shí),是通過(guò)將目標用戶(hù)的歷史行為記錄與其他每一個(gè)用戶(hù)的記錄相比較得出的,所以對于一個(gè)現實(shí)的推薦系統來(lái)說(shuō),擴展性將成為非常嚴重的問(wèn)題。設想一下,對于一個(gè)擁有上百萬(wàn)用戶(hù)的網(wǎng)站來(lái)說(shuō),每計算一個(gè)用戶(hù)都將涉及到上百萬(wàn)次的比較,更不要說(shuō)其中會(huì )帶來(lái)的大量數據庫IO操作的開(kāi)銷(xiāo)。
 
于是第二代基于內容項(Item-based)的協(xié)同過(guò)濾技術(shù)就產(chǎn)生了。與基于用戶(hù)的技術(shù)不同的是,這種方法比較的是內容項與內容項之間的相似度。Item-based 方法同樣需要進(jìn)行三個(gè)步驟獲得推薦:1)得到內容項(Item)的歷史評分數據;2)針對內容項進(jìn)行內容項之間的相似度計算,找到目標內容項的“最近鄰居”;3)產(chǎn)生推薦。這里內容項之間的相似度是通過(guò)比較兩個(gè)內容項上的用戶(hù)行為選擇矢量得到的。舉個(gè)例子,假設用戶(hù)和內容項如下:
 
 
電影A
電影B
電影C
電影D
張三
喜歡
 
 
 
李四
喜歡
喜歡
喜歡
喜歡
王五
不喜歡
 
不喜歡
不喜歡
趙六
喜歡
喜歡
 
喜歡
 
可以看出,電影A與D是最相似的。因為張三喜歡A,所以電影D就可以推薦給張三。
 
和基于用戶(hù)的推薦系統相比,基于內容項的推薦系統最大的改進(jìn)是更具有擴展性?;趦热蓓椀姆椒ㄍㄟ^(guò)計算內容項之間的相似性來(lái)代替用戶(hù)之間的相似性。對于通常的互聯(lián)網(wǎng)應用來(lái)說(shuō),提供的內容項數量相對較為穩定。比如一個(gè)大型網(wǎng)上書(shū)店,可能出售的書(shū)籍數量也就在幾十萬(wàn)上下,而用戶(hù)數量就可能達到幾百萬(wàn)。所以,比起用戶(hù),內容項之間的相似性計算需要的計算量要少很多,從而大大降低了在線(xiàn)計算量,提高系統性能?;趦热蓓椀耐扑]系統應用最為成功的是Amazon。Amazon為此還申請了一項專(zhuān)利叫做”Collaborative recommendations using item-to-item similarity mappings”[1]。當然,在降低了計算量的同時(shí),完全基于內容項的推薦技術(shù)也在推薦的準確度上做了小小的犧牲。大多數情況下,基于用戶(hù)的推薦技術(shù)表現要略好于基于內容項的方法。這是因為基于內容的方法忽略了相似用戶(hù)之間的組群特征。
 
不論是第一代的基于用戶(hù)方法,還是第二代的基于內容項方法,都不可避免的遇到數據稀疏的問(wèn)題。在任何一個(gè)網(wǎng)站中,用戶(hù)的評分記錄或者購買(mǎi)記錄,相對整個(gè)可供選擇的內容集來(lái)說(shuō),都是很小的一部分。所以在許多推薦系統中,每個(gè)用戶(hù)涉及的數據量相當有限,在一些大的系統如Amazon中,用戶(hù)最多不過(guò)就評價(jià)過(guò)上百萬(wàn)本書(shū)的1%,造成評估數據相當稀疏。當用戶(hù)評價(jià)過(guò)的內容之間找不到交集時(shí),就難以判斷用戶(hù)的口味是否相似,難以找到相似用戶(hù)集,導致推薦效果大大降低。為了解決用戶(hù)數據的稀疏問(wèn)題,最方便的辦法就是將用戶(hù)對沒(méi)有選擇過(guò)的內容項的評分設為一個(gè)固定的缺省值,例如用戶(hù)的平均評分。針對如何預測遺漏的評分業(yè)內又提出了很多種方法,不過(guò)一般來(lái)說(shuō)采用最簡(jiǎn)單的改進(jìn)方法就可以有效地提高協(xié)同過(guò)濾推薦系統的準確度。
 
另外一方面,即便采用了基于內容項的方法,在數據量巨大的時(shí)候,計算復雜度仍然成為性能瓶頸。為了進(jìn)一步解決協(xié)同過(guò)濾技術(shù)的擴展性能問(wèn)題,目前比較有效的辦法是在用戶(hù)評分數據上做一次聚類(lèi)分析(clustering)。聚類(lèi)技術(shù)首先將具有相似興趣愛(ài)好的用戶(hù)分配到相同的分類(lèi)中。聚類(lèi)產(chǎn)生之后,它或者將“最近鄰居”搜索對象限制在最相近的聚類(lèi)中,根據類(lèi)中其他用戶(hù)的評價(jià)預測目標用戶(hù)的評價(jià),或者用聚類(lèi)的中心作為近似提取推薦結果。由于用戶(hù)之間的分類(lèi)相對變化比較小,因此聚類(lèi)過(guò)程往往可以離線(xiàn)進(jìn)行,而無(wú)需實(shí)時(shí)計算,這樣就大大降低了實(shí)時(shí)推薦的計算壓力,提高推薦系統的速度。一般來(lái)說(shuō),聚類(lèi)將用戶(hù)分為多少個(gè)類(lèi),推薦系統的整體速度就能夠提高多少倍。具體選擇什么樣的聚類(lèi)算法,又會(huì )因應用領(lǐng)域和數據的分布特性而不同。如果聚類(lèi)算法選擇不當,反而會(huì )降低推薦的準確性。近年來(lái),推薦系統的算法技術(shù)的發(fā)展也有了一些新的方向,比如SlopeOne,SVD等方法,就不一一列舉了。
 
在我看來(lái),一個(gè)商用推薦系統的尤其關(guān)鍵之處在于對海量用戶(hù)數據的處理。因為推薦系統是數據優(yōu)先,數據的積累越多對推薦的精度就越有好處。而當用戶(hù)的行為數據真正積累到上百萬(wàn)甚至上億時(shí),如何在合理時(shí)間內得出有效的推薦,就是對推薦技術(shù)最大的考驗。除此之外,一個(gè)優(yōu)秀的推薦系統需要能夠結合內容相似與用戶(hù)行為相。傳統的協(xié)同過(guò)濾方法是忽略?xún)热荼旧淼膶傩缘?,這一方面固然是對數據要求少的優(yōu)點(diǎn),但另一方面也帶來(lái)了難以避免的“冷啟動(dòng)”問(wèn)題。其實(shí),隨著(zhù)標簽系統在互聯(lián)網(wǎng)上的廣泛應用,標簽本身就不失為是一種很好的內容屬性。如何利用也是值得大家探討的。充分利用到內容本身的屬性,將不同的相似性結合起來(lái),這會(huì )給基于協(xié)同過(guò)濾的推薦技術(shù)帶來(lái)新的動(dòng)力。最后一點(diǎn),設計良好的推薦技術(shù)要能夠從用戶(hù)對推薦內容的反饋中自行調整和學(xué)習。因為實(shí)際上每個(gè)用戶(hù)對于推薦的內容都有不同的要求,比如有的用戶(hù)可能偏好比較熱門(mén)的內容,有的用戶(hù)更愿意發(fā)現冷門(mén)的內容。針對不同用戶(hù)的反饋來(lái)不斷學(xué)習每個(gè)用戶(hù)的特征,才能夠避免所采用算法本身先天的偏差,獲得較為理想的效果。
本站僅提供存儲服務(wù),所有內容均由用戶(hù)發(fā)布,如發(fā)現有害或侵權內容,請點(diǎn)擊舉報。
打開(kāi)APP,閱讀全文并永久保存 查看更多類(lèi)似文章
猜你喜歡
類(lèi)似文章
介紹電子商務(wù)系統中的協(xié)同過(guò)濾推薦技術(shù)_介紹信_第二教育資源網(wǎng)
協(xié)同過(guò)濾推薦系統中數據稀疏問(wèn)題的解決3 - 期刊雜志|免費雜志|電子雜志|雜志下載
【算法新聞】推薦算法
推薦算法的物以類(lèi)聚人以群分
從零搭建推薦體系: 推薦體系和評估體系(下)
如何從無(wú)到有搭建資訊類(lèi)產(chǎn)品商業(yè)廣告系統?
更多類(lèi)似文章 >>
生活服務(wù)
分享 收藏 導長(cháng)圖 關(guān)注 下載文章
綁定賬號成功
后續可登錄賬號暢享VIP特權!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服

欧美性猛交XXXX免费看蜜桃,成人网18免费韩国,亚洲国产成人精品区综合,欧美日韩一区二区三区高清不卡,亚洲综合一区二区精品久久