中国女人美女一级毛片_ 百度對網(wǎng)頁(yè)搜索的檢索質(zhì)量評價(jià)

這個(gè)問(wèn)題真心能寫(xiě)一本書(shū)，在百度有上百人從事和評估相關(guān)的工作

latent Z 說(shuō)的七個(gè)維度，只是評估網(wǎng)頁(yè)搜索效果的指標之一：Q-U相關(guān)性的評價(jià)標準中的一部分（直接從文檔里抄下來(lái)的小標題??！專(zhuān)業(yè)一點(diǎn)好不好……）

所謂檢索滿(mǎn)意度是個(gè)很虛的東西，但是可以從用戶(hù)行為中看到端倪。通過(guò)分析用戶(hù)點(diǎn)擊順序、停留時(shí)間，點(diǎn)擊數量等，能夠大概分析出一個(gè)用戶(hù)是否滿(mǎn)意，花了多長(cháng)時(shí)間滿(mǎn)意，被哪一個(gè)結果所滿(mǎn)足?；蛘咄ㄟ^(guò)AB Test，Interleaving等方法，可以對比A、B搜索結果的好壞，得到一個(gè)相對值。舉個(gè)簡(jiǎn)化了的栗子：
某用戶(hù)搜了【知乎】，然后直接點(diǎn)擊了首位的知乎網(wǎng)站，之后沒(méi)有點(diǎn)別的?；究梢耘袛酁闈M(mǎn)足了，而且滿(mǎn)足程度非常高；
某用戶(hù)搜了【蒼老師最新作品下載】，點(diǎn)了一個(gè)結果，過(guò)一會(huì )又來(lái)點(diǎn)另一個(gè)，過(guò)一會(huì )又來(lái)點(diǎn)……翻頁(yè)點(diǎn)了十幾個(gè)最后走了，他的滿(mǎn)足程度可能就很低（都是無(wú)效資源啊，下載不了，只能一個(gè)一個(gè)換）
這類(lèi)方法的前提是你能夠得到大量的用戶(hù)行為統計，基于這些實(shí)際數據進(jìn)行分析。但現實(shí)中并不是總有用戶(hù)數據，比如新策略還沒(méi)上線(xiàn)，或者你是競爭對手的人等等。
實(shí)際上還有五花八門(mén)的人工評估從各個(gè)角度判斷搜索結果質(zhì)量。人工評估就是將現實(shí)中用戶(hù)的偏好抽象為幾個(gè)考察點(diǎn)，比如上面說(shuō)的七個(gè)維度，然后模擬這個(gè)過(guò)程。我說(shuō)一點(diǎn)眾所周知的思路吧：

對搜索結果中的前N條URL分別進(jìn)行Query-URL相關(guān)性評估，并根據排名賦予權重，計算出一個(gè)值，名曰DCG，通過(guò)這個(gè)絕對數值反映單次搜索前N結果的質(zhì)量
將同一query下的百度搜索結果和競品結果進(jìn)行橫向對比，判斷好壞及程度，得出誰(shuí)家搜索質(zhì)量更好的結論，名曰Side-by-side。在評估中如果隱去兩側所有品牌標識，并左右環(huán)境順序隨機互換，即為盲測，盲測的結論一般都會(huì )非?？陀^(guān)反應搜索引擎質(zhì)量差距。

以上是僅關(guān)注搜索結果及其排序的評估方法舉例。除此之外，摘要、飄紅、sug等感知項目，也都會(huì )影響到結論，每種都有自己的評估方法。

最后如何評估，選取關(guān)注哪些指標，關(guān)鍵在于你評估的目的是什么了?！皺z索滿(mǎn)意度” 也是個(gè)很大的話(huà)題??！

--------------------Update 2013-7-25--------------------
鑒于有人還是覺(jué)得這事太抽象，我就舉個(gè)具體的栗子

第一步：明確評估的背景、目的、你所掌握的資源
在這里我們假設一個(gè)第三方研究者，想比較百度和谷歌搜索到底哪個(gè)好。這個(gè)問(wèn)題在知乎經(jīng)常有人討論，但大家大多只是說(shuō)自己的使用感受，而沒(méi)有人能拿出信服的調研數據，現在我們就是要解決這個(gè)問(wèn)題。由于作為第三方研究者很難獲取到兩個(gè)搜索引擎完整的用戶(hù)行為，即使有了不可控變量也太多，無(wú)法得到嚴謹的結論。但是抓取雙方的搜索結果是很容易的

第二步：確定評估方法
評估的基本方法是顯而易見(jiàn)的：選定N個(gè)query，把每一個(gè)query在兩邊同時(shí)搜一下就可以對二者進(jìn)行橫向比較了，最后算一個(gè)平均指標。
重點(diǎn)在于指標如何選取，在這里我們可以用上面提到的兩種角度，即：
1 對前N結果（一般都是3，有時(shí)還有5或10）逐個(gè)判斷相關(guān)性，然后根據位置賦予權重，分別計算兩側搜索結果質(zhì)量值（DCG）
2 對兩側結果進(jìn)行綜合比較，給出一個(gè)相對值（左邊好？右邊好？好的程度？）

第三步：制定評估標準
這一步很重要，既然要評估，那就一定要先確定下來(lái)什么叫“好”，什么叫“差”，標準必須盡量反映用戶(hù)的真實(shí)感受而且始終保持一致。在這個(gè)方面，百度也好谷歌也好，都有厚厚的一坨規定，且基本思想大致相同。如果可以搞到一份，那么這個(gè)步驟就省力了。

第四步：數據準備
1 抽query：在本次評估的背景下，從數量上來(lái)說(shuō)，使用1000個(gè)query作為樣本是性?xún)r(jià)比比較高的選擇。太少的話(huà)波動(dòng)大，太多會(huì )標到吐血（熟練標注員每人每天可以標100Q左右）。Query必須隨機抽取于近期用戶(hù)自然產(chǎn)生的query，而不是自己憑空編出來(lái)的1000個(gè)詞，這樣能夠確保Query類(lèi)型（長(cháng)短冷熱中外...）的分布接近實(shí)際比例，進(jìn)而才有可靠的結論
2 抓網(wǎng)頁(yè)：query確定下來(lái)，就要開(kāi)始抓百度和谷歌的搜索結果了。為了保證結果公平可靠，應該進(jìn)行盲測，即隱去兩邊品牌特征，再狠一點(diǎn)的，應該在評估過(guò)程中隨機調換左右順序。這里比較麻煩的是阿拉丁啊，知識圖譜啊這類(lèi)特型展現，熟悉搜索引擎的人一眼就看出是誰(shuí)家的，這個(gè)暫時(shí)就沒(méi)辦法了，評估時(shí)盡量保持客觀(guān)中立吧。

第五步：評估
最主要的部分來(lái)了，這里要對抓取的結果進(jìn)行人工評估。你可以自己一個(gè)人連評10天；或者找幾個(gè)人一起做，但是要先對他們進(jìn)行統一培訓，以免標準不一；也可以找一群人，每個(gè)人都做一遍，然后取他們平均數也好多數投票也好，當然也得培訓了，還得防著(zhù)濫竽充數的。成本和靠譜程度依次遞增。

第六步：統計
這一步?jīng)]啥好說(shuō)的，按照之前想好的方式統計一下結果，做個(gè)總結就OK了。百度和谷歌誰(shuí)更好，哪里好，好多少，一清二楚。

然后下一次再和別人討論百度好還是谷歌好的時(shí)候，你“嗖”的一下掏出這份報告，小伙伴們都會(huì )驚呆的。那些只知道往外扔一兩個(gè)badcase來(lái)說(shuō)明問(wèn)題的人真是弱爆了……百度對網(wǎng)頁(yè)搜索的檢索質(zhì)量評價(jià)

本站僅提供存儲服務(wù)，所有內容均由用戶(hù)發(fā)布，如發(fā)現有害或侵權內容，請點(diǎn)擊舉報。

欧美性猛交XXXX免费看蜜桃,成人网18免费韩国,亚洲国产成人精品区综合,欧美日韩一区二区三区高清不卡,亚洲综合一区二区精品久久