現在大數據成為一個(gè)熱門(mén)話(huà)題, 然而無(wú)論是網(wǎng)頁(yè), 產(chǎn)品信息, 車(chē)輛的功能, 文本, 病例還是氣象等數據, 對數據的理解的第一步就是要理解數據之間的關(guān)聯(lián)。利用圖論, 我們將能夠進(jìn)一步提高我們對數據的理解能力,同時(shí)構建和分析圖論模型將使得我們能夠自動(dòng)獲取答案。本文我們將以搜索引擎為例介紹圖論在大數據分析中的作用:
如今, Google已經(jīng)成為了很多人日常生活中不可或缺的一部分,這個(gè)搜索引擎巨頭通過(guò)圍繞在它的核心能力也就是對互聯(lián)網(wǎng)的索引, 把一系列服務(wù)整合起來(lái)提供給用戶(hù)。
Google的網(wǎng)絡(luò )爬蟲(chóng)和PageRank算法使得人們搜索網(wǎng)絡(luò )的方式發(fā)生了革命性的變化。 通過(guò)對網(wǎng)頁(yè)鏈接數量和重要性的分類(lèi), Google能夠比競爭對手更快地提供更加相關(guān)的信息。
網(wǎng)站和網(wǎng)站之間的鏈接組成了一個(gè)圖, 這不是我們通常所說(shuō)的可視化的圖, 而是一種用來(lái)表示每個(gè)網(wǎng)頁(yè)如何與其他網(wǎng)頁(yè)發(fā)生關(guān)系的模型。
PageRank算法就是采用這種模型來(lái)判斷一個(gè)網(wǎng)頁(yè)的重要性的。一個(gè)網(wǎng)頁(yè)擁有越多的外部鏈接, 它的重要性就可能越高, 如果一個(gè)網(wǎng)頁(yè)被更多的權威信息源所引用, 那么這個(gè)網(wǎng)頁(yè)的重要性也就越高。 Google搜索引擎的搜索結果一般來(lái)說(shuō)比競爭對手要更快更好, 就是因為它的算法涵蓋了互聯(lián)網(wǎng)頁(yè)面之間的絕大部分鏈接。
把類(lèi)似的想法應用到其他數據上, 來(lái)分析數據之間的關(guān)聯(lián), 也能夠揭示一些數據背后的本質(zhì)。 告訴我們哪些是相關(guān)的, 哪些是重要的。
要理解我們如何從數據中得出答案, 我們需要了解我們傳統上是如何與數據打交道的。幾乎所有的試圖從數據中尋找答案的過(guò)程都是通過(guò)搜索實(shí)現的。
搜索首先總是從提出問(wèn)題開(kāi)始的。 我們把已知的與數據聯(lián)系的越好, 我們提出的問(wèn)題就越可能找到答案。 比如說(shuō), 如果你找不到你的鑰匙,可能你會(huì )問(wèn):”我的鑰匙在哪里?”。 不過(guò), 這可不是一個(gè)容易得到答案的問(wèn)題。它太寬泛了。 而如果你問(wèn):“我的鑰匙是不是掉在收銀臺了?” 這個(gè)問(wèn)題比第一個(gè)問(wèn)題要具體一些。 如果你的鑰匙在收銀臺, 那這個(gè)問(wèn)題就是一個(gè)好的問(wèn)題。如果不是的話(huà), 這個(gè)問(wèn)題也不是個(gè)好問(wèn)題。
對數據庫的查詢(xún)與上述方式類(lèi)似。 要想得到你想要的結果, 你需要構造一個(gè)與你的數據相關(guān)的查詢(xún)條件。 你可以使用的查詢(xún)語(yǔ)句不計其數, 但是只有少部分能夠讓你得到你需要的答案。
這樣的情況才是數據科學(xué)的真正難點(diǎn)所在, 也是為什么好的分析師鳳毛麟角的原因。 最好的數據科學(xué)家是那些既懂得數據, 又懂得那些提出正確問(wèn)題的人。
如果把互聯(lián)網(wǎng)看成數據集的話(huà), 那么搜索引擎就是你的查詢(xún)工具。
幾十年來(lái), 搜索引擎都在抓取網(wǎng)絡(luò )信息, 索引網(wǎng)頁(yè)以便能夠被搜索到。 通過(guò)構造不同的搜索條件, 用戶(hù)可以得到不同的結果。 搜索引擎服務(wù)商們不斷的改進(jìn)他們的產(chǎn)品。然而搜索引擎的真正創(chuàng )新出現在2000年左右。
當時(shí), Google的PageRank算法通過(guò)對每個(gè)鏈接以及其鏈接的內容進(jìn)行建模。通過(guò)圖論建模, Google把網(wǎng)頁(yè)之間的聯(lián)系進(jìn)行了量化, 以幫助用戶(hù)更快地獲得相關(guān)的結果。 這一算法使用了網(wǎng)頁(yè)之間的關(guān)系來(lái)提高搜索結果的質(zhì)量。 而無(wú)論哪種搜索引擎, 用體提供的搜索條件描述性越好, 就越能夠得到好的結果。
你的搜索條件與Google的PageRank算法之間建立了一個(gè)聯(lián)系。而Google通過(guò)圖論建模,建立了一個(gè)你的搜索條件與相關(guān)頁(yè)面之間的聯(lián)系。 如果沒(méi)有關(guān)于相關(guān)頁(yè)面和鏈接的模型, Google就需要更精確的搜索條件才能得到滿(mǎn)意的結果。 然而, 即便是采用更先進(jìn)的搜索技術(shù), 現在的數據問(wèn)題也會(huì )使得構造一個(gè)正確的查詢(xún)條件變得困難。
現在大數據成為一個(gè)熱門(mén)話(huà)題, 然而無(wú)論是網(wǎng)頁(yè), 產(chǎn)品信息, 車(chē)輛的功能, 文本, 病例還是氣象等數據, 對數據的理解的第一步就是要理解數據之間的關(guān)聯(lián)。認同這一點(diǎn)的話(huà), 就能夠理解為什么圖論在將來(lái)能夠為人們的數據分析提供思路。
今天, 我們對數據的很多分析和研究方式已經(jīng)被圖論深深地影響了。 而在未來(lái), 利用圖論, 我們能夠進(jìn)一步提高我們對數據的理解能力。 構建和分析圖論模型將使得我們能夠自動(dòng)獲取答案。當我們把數據自己聯(lián)系起來(lái)的時(shí)候, 數據中隱藏的答案會(huì )自己出現。
聯(lián)系客服