進(jìn)入21世紀,互聯(lián)網(wǎng)逐步成為人們生活中不可缺少的元素。北京BDA市場(chǎng)研究公司2008年3月份的研究報告稱(chēng),根據中國互聯(lián)網(wǎng)網(wǎng)絡(luò )信息中心的數據預計,按用戶(hù)數量計算,中國目前已經(jīng)超過(guò)美國而成為全球最大的互聯(lián)網(wǎng)市場(chǎng)。中國互聯(lián)網(wǎng)網(wǎng)絡(luò )信息中心的資料顯示,截止到2007年年底,中國互聯(lián)網(wǎng)用戶(hù)數量達到了2.1億。而根據Nielsen/NetRatings的資料顯示,截止到2007年年底,美國的互聯(lián)網(wǎng)用戶(hù)數量為2.16億。根據2007年底中國互聯(lián)網(wǎng)絡(luò )中心(CNNIX)發(fā)布的報告數據,2007年中國網(wǎng)民數量年增長(cháng)速度為53.3%。因此,有理由相信到2010年中國將會(huì )成為全球最大的,最有潛力的互聯(lián)網(wǎng)市場(chǎng)。
目前國內比較大的互聯(lián)網(wǎng)企業(yè)有:騰訊,阿里集團,新浪集團等,從2004年開(kāi)始到現在,這些大型的互聯(lián)網(wǎng)企業(yè)對數據挖掘產(chǎn)生了爆發(fā)性的需求。那么這些互聯(lián)網(wǎng)公司都在挖些什么呢?根據野心的觀(guān)察和了解,目前互聯(lián)網(wǎng)企業(yè)的數據挖掘工作主要圍繞著(zhù)下面幾個(gè)問(wèn)題進(jìn)行:
1、基礎的數據分析。由于互聯(lián)網(wǎng)行業(yè)發(fā)展速度較快,新產(chǎn)品的測試和上線(xiàn)周期很短,要對產(chǎn)品的運營(yíng)情況作出客觀(guān)的分析需要以數據分析為支持。因此,基礎性的數據分析工作可以說(shuō)是互聯(lián)網(wǎng)企業(yè)中最日常性的工作。
2、用戶(hù)行為分析?;ヂ?lián)網(wǎng)公司最難解決的就是如何將用戶(hù)的線(xiàn)上行為與用戶(hù)的線(xiàn)下信息對應起來(lái)。雖然,互聯(lián)網(wǎng)公司能記錄的是用戶(hù)的瀏覽的日志文件,而這個(gè)用戶(hù)在線(xiàn)下是張三還是李四,是白領(lǐng)還是民工,那就無(wú)從得知了。騰訊是一個(gè)比較特殊的例子,QQ為用戶(hù)提供了一個(gè)即時(shí)通信的平臺,騰訊的其他業(yè)務(wù)都可以通過(guò)QQ ID進(jìn)行登錄,包括QQ.com的瀏覽也可以從IM上探出的迷你首頁(yè)進(jìn)入,因此后臺記錄的用戶(hù)行為相當豐富。這就讓騰訊能夠進(jìn)行類(lèi)似電信行業(yè)中的用戶(hù)行為分析,在這些用戶(hù)行為數據的基礎上建立分群,分類(lèi)預測和關(guān)聯(lián)分析模型。而阿里集團下的淘寶和阿里巴巴則傾向于從商業(yè)的角度分析買(mǎi)賣(mài)雙方的交易行為,從而為市場(chǎng)活動(dòng)提供決策的依據。
3、收入,用戶(hù)數方面的預測。這是一個(gè)時(shí)間序列方面的問(wèn)題,互聯(lián)網(wǎng)公司往往希望知道收入的變動(dòng)情況或者活躍用戶(hù)數據的變化情況,因此這類(lèi)預測往往會(huì )被提出來(lái)。但從野心的角度看,由于互聯(lián)網(wǎng)公司業(yè)務(wù)變化速度較快,外界突發(fā)事件對運營(yíng)情況產(chǎn)生的影響很大,因此這種預測的誤差往往是比較大的,僅具有參考性意義。
4、SNS分析。SNS是這兩年國內外業(yè)界和學(xué)術(shù)屆都在熱炒的問(wèn)題。許多互聯(lián)網(wǎng)公司都在研究這個(gè)問(wèn)題,但是仍然沒(méi)能取得很好的研究結論。野心認為,SNS在海量用戶(hù)的環(huán)境中要解決3個(gè)比較大的問(wèn)題:1、SNS的中心在哪;2、SNS的圈子要劃多大;3、如何尋找一種合適的算法在海量數據中把一個(gè)一個(gè)的圈子找出來(lái)。野心覺(jué)得,單純采用數據挖掘和計算機技術(shù)不足以解決這個(gè)問(wèn)題,可能需要借助社會(huì )學(xué)的理論和方法。
聯(lián)系客服