很多Blogger都遇到過(guò)自己文章被其他人抄襲剽竊的情況,為了讓大家能快速將惡意轉載抄襲者找出來(lái),我根據搜索引擎的一些原理,利用百度搜索引擎的數據,開(kāi)發(fā)了一個(gè)可以自動(dòng)分析查找那些對自己有“實(shí)質(zhì)傷害”的抄襲者的地址。

這是一個(gè)獨立的可執行的程序,完全免費,基于A(yíng)CCESS數據庫,目前支持Z-Blog系統,其實(shí)支持其他ASP的Blog修改也很簡(jiǎn)單,有需要的可以聯(lián)系一下我。
數據挖掘我是直接通過(guò)調用搜索引擎來(lái)實(shí)現的。原先打算使用Java下調用Google SOAP API來(lái)實(shí)現,不過(guò)不知什么原因,Google SOAP API搜索英文沒(méi)有任何問(wèn)題,一搜索中文就報數組超界,不知道什么原因。只好去調用百度的搜索引擎。
百度的搜索引擎沒(méi)有API,不過(guò)我還是有辦法間接調用的。調用的時(shí)候發(fā)現中文的確沒(méi)有什么問(wèn)題,也沒(méi)有錯誤,很順利就調通了程序。
我目前搜索的時(shí)候,采用了“實(shí)質(zhì)傷害”這個(gè)概念,因為目前文章轉載的情況會(huì )非常多,每一個(gè)都去處理會(huì )很麻煩。因此我們只去尋找情況惡劣的即可。這個(gè)可以通過(guò)搜索引擎排名來(lái)實(shí)現。只尋找那些轉載地址對于原文影響最壞的。
這個(gè)程序使用起來(lái)很簡(jiǎn)單,先選擇數據庫文件,再選擇Z-Blog系統,然后填寫(xiě)你自己的域名,點(diǎn)搜索即可開(kāi)始執行。搜索完成后會(huì )自動(dòng)生成一個(gè)名為list.txt的文件,就是搜索結果。此程序對于部分標題的文章會(huì )有誤判,最好文章標題個(gè)性化濃一些。軟件的界面看起來(lái)不是很好,因為我沒(méi)有美工嘛。
點(diǎn)擊下載軟件:轉載文章搜索器
聯(lián)系客服