隨著(zhù)在線(xiàn)廣告的流行,pay by per click (每次點(diǎn)擊付錢(qián))的模式 逐漸被大家接受??墒请S之而來(lái)的問(wèn)題就是fraud clicking的預防迫在眉捷,因為這將直接關(guān)系到這種廣告模式能否長(cháng)久生存和能否成為一種真正的網(wǎng)站擁有者的收入來(lái)源。
下面介紹Google Adsense系統如何從系統角度出發(fā)防止點(diǎn)擊欺騙,希望對其它的在線(xiàn)廣告系統防止虛假點(diǎn)擊能有很好的指導作用:
1] 點(diǎn)擊率 = 點(diǎn)擊次數/共瀏覽的次數。
點(diǎn)擊率是一個(gè)判斷是否有無(wú)fraud clicks的關(guān)鍵的方法,可以想像一個(gè)網(wǎng)站上的廣告的點(diǎn)擊率超過(guò)10%將意味這什么。
#of Click/# of Viewed
2] 點(diǎn)擊覆蓋率/獨立IP ,這個(gè)分布里如果有;單個(gè)IP 的(點(diǎn)擊/瀏覽)=點(diǎn)擊覆蓋率超出了3倍的系統誤差范圍內將有作弊的嫌疑。
例子,例如來(lái)自 129.119.200.1 的用戶(hù)瀏覽了 16個(gè)網(wǎng)頁(yè),點(diǎn)擊了4個(gè)廣告,而整個(gè)廣告的點(diǎn)擊率「從[1]里計算的到」是5%,那么計算得到:
%5 X 16 =~ 1,方差為Sqrt(1) = 1,點(diǎn)擊覆蓋率=4/1 = 4 ,根據數學(xué)上高斯分布,這種概率小于萬(wàn)分之一。
Ratio VS IP distribution
3] 點(diǎn)擊率『點(diǎn)擊覆蓋率』/IP/時(shí)間
根據時(shí)間序列對點(diǎn)擊率進(jìn)行分析,如果在某一個(gè)時(shí)間段上有明顯的峰值,那么這將以為著(zhù)有潛在的欺騙點(diǎn)擊的可能。
Ratio VS time
4] 網(wǎng)頁(yè)load的時(shí)間和 廣告點(diǎn)擊時(shí)間差的分析,以及每?jì)纱蝐lick之間時(shí)間差序列的分析
[網(wǎng)頁(yè)load的時(shí)間和 廣告點(diǎn)擊時(shí)間差] 應該是一個(gè)泊松分布 possion distribution,而每?jì)纱蝐lick之間的時(shí)間差也應該是一個(gè)Possion distribution,如果這個(gè)時(shí)間用秒記,大于25秒的話(huà)基本上呈現高斯分布的形狀。
[time of loading - time of click] distribution VS Possion
[time difference of two clicks] distribution VS Possion/Gaussion
5] 針對Proxy點(diǎn)擊的分析
改變IP進(jìn)行點(diǎn)擊可以說(shuō)在以往是最難以解決最難以發(fā)現作弊方式,大概國人進(jìn)行Alexa的Boost時(shí)就多半采用了Proxy進(jìn)行虛假點(diǎn)擊的方法,可是這里只要通過(guò)反向監查IP的來(lái)源是否是帶有Proxy功能的服務(wù)器就可以知道了。
Reverse Proxy check
6] 針對 http_agent的分析
Http_agent/時(shí)間 的時(shí)間序列的分析,峰值超過(guò)3方差需要審查
7] 針對 http_referral 的分析
referral/時(shí)間 的時(shí)間序列的分析 ,峰值超過(guò)3方差需要審查
8] 整體效果上還有一個(gè)非常有用的量:
所有用戶(hù)的有效的每千次展示費用的均值/獨立IP
這個(gè)將能更加直接找到spam clicking 的運行計算機并且予以封殺。
Overall Ratio VS IP
即便我在這里給出了以上的防止作弊的辦法,但是不要忘記了:
邪惡的人永遠比正義的人來(lái)的多,來(lái)的猛烈。