編者按:我們此前曾推出文章
有朋自遠方來(lái): 馬志明教授談緣分
這篇文章影響很大,大量轉載??梢哉f(shuō),網(wǎng)絡(luò )以此為題的傳播實(shí)際源自本號的推廣,因為原來(lái)自《數學(xué)傳播》標題不是這樣的。
只知其人而不聽(tīng)其演講,未免遺憾,有如寶山空回。
下面推出轉載他的一篇演講。演講內容引入入勝,魅力無(wú)限。
演講題目: 概率統計,魅力無(wú)限
演講人: 馬志明院士, 中國科學(xué)院數學(xué)與系統科學(xué)研究院
主講人簡(jiǎn)介: 馬志明,中國科學(xué)院院士,中國科學(xué)院數學(xué)與系統科學(xué)研究院研究員。1984年在中國科學(xué)院獲博士學(xué)位。在概率論與隨機分析領(lǐng)域有重要貢獻。研究狄氏型與馬氏過(guò)程的對應關(guān)系取得了突破性進(jìn)展,與人合作建立了擬正則狄氏型與右連續馬氏過(guò)程一一對應的新框架。他與M. Rockner合寫(xiě)的英文專(zhuān)著(zhù)已成為該領(lǐng)域基本文獻。在Malliavin算法方面,他與合作者證明了Wiener空間的容度與所選取的可測范數無(wú)關(guān)。他還在奇異位勢理論、費曼積分、薛定鍔方程的概率解、隨機線(xiàn)性泛函的積分表現、無(wú)處Radon光滑測度等方面獲得多項研究成果。近年來(lái)關(guān)注概率論與生命、信息等其它領(lǐng)域的交叉。曾在1994年國際數學(xué)家大會(huì )上作邀請報告。曾獲包括Max-Planck研究獎、中國科學(xué)院自然科學(xué)一等獎、國家自然科學(xué)二等獎、陳省身數學(xué)獎、華羅庚數學(xué)獎等在內的若干獎項。1995年當選為中國科學(xué)院院士,1998年當選為第三世界科學(xué)院院士,2007年當選為數理統計學(xué)會(huì )(IMS)Fellow。曾擔任2002年北京國際數學(xué)家大會(huì )組委會(huì )主席。曾任國際數學(xué)聯(lián)盟執委會(huì )委員(2003-2006)、副主席(2007-2010)。曾任中國數學(xué)會(huì )第八屆理事長(cháng)(2000-2003),第十屆理事長(cháng)(2008-2011),中國概率統計學(xué)會(huì )理事長(cháng)(2011-2014),現任中國科技大學(xué)數學(xué)科學(xué)院院長(cháng)。
概率統計的思想和方法正滲透到當代人類(lèi)社會(huì )的眾多科技領(lǐng)域和社會(huì )領(lǐng)域。概率統計在現代科學(xué)技術(shù)和社會(huì )經(jīng)濟領(lǐng)域的應用日益廣泛深入,它與其它學(xué)科,以及與數學(xué)的其它分支相互交叉、滲透,取得了極其豐富的成果, 展現了概率統計學(xué)科的無(wú)限魅力。當然,雖然概率統計的魅力無(wú)限,但我自己的學(xué)識卻是有限。在今天的報告中,我將與各位分享我的一些點(diǎn)滴體會(huì )。我先說(shuō)一說(shuō)統計學(xué)科已發(fā)展成為在當今科學(xué)與社會(huì )應用非常廣泛的重要學(xué)科。在我國更是有特點(diǎn),成立了統計一級學(xué)科。統計與其它領(lǐng)域交叉產(chǎn)生許多重要分支,如金融統計、保險精算、商務(wù)統計、計量統計、生物統計、保險統計和應用統計等。由于我的研究方向是概率與隨機分析領(lǐng)域,因此在下面的報告中對概率與隨機分析講的多一些。
概率統計方法近年在數學(xué)學(xué)科取得的標志性成果
近年來(lái)概率統計日益滲透到數學(xué)的其它分支,取得了極其豐碩的成果,并且不斷地產(chǎn)生新的學(xué)科分支。比如:隨機偏微分方程、隨機動(dòng)力系統(這兩個(gè)正是樓上本次學(xué)術(shù)會(huì )議的內容)、隨機微分幾何、隨機共形理論、隨機圖與隨機復雜網(wǎng)絡(luò )、隨機算法、倒向隨機微分方程、非線(xiàn)性數學(xué)期望,等等。概率統計與數學(xué)其它分支相融合,促進(jìn)了數學(xué)學(xué)科的發(fā)展,最有代表性的事實(shí)就是近年來(lái)多項國際數學(xué)大獎都與概率統計有關(guān):從2006年至2016年這十年中的菲爾茨獎(曾被譽(yù)為數學(xué)中的諾貝爾獎),每屆都有概率,而且非常多: 2006年四位菲爾茨獎得主中,有三個(gè)半與概率有關(guān),其中Werner與Okounkov可算是概率科班出身,Terance Tao 的許多研究涉及概率與隨機矩陣,Perelman的研究工作用到對數Sobolev不等式,也與概率有關(guān); 2006年的Nevanlinna獎頒發(fā)給了Kleinberg, 他的研究工作是關(guān)于隨機圖和隨機復雜網(wǎng)絡(luò )及其算法;Gauss獎設立于2006年,以獎勵對人類(lèi)其他領(lǐng)域做出突出貢獻的數學(xué)家,首屆Gauss獎頒發(fā)給了Ito, 獎勵他發(fā)明的隨機積分對人類(lèi)的貢獻; 2007年Abel獎(與諾貝爾獎獎金相同)獎給了國際著(zhù)名概率學(xué)家Varadhan; 2010年菲爾茨獎四位得主中, Villani, Smirnor, 和Lindenstruss 三位的工作都與概率有關(guān); 2014年Martin Hairer由于在隨機偏微分方程的杰出貢獻獲得了菲爾茨獎, 他創(chuàng )造的正則性結構,建立了新的框架,統一了Rough Path理論和經(jīng)典的Taylor展開(kāi)理論。這一理論可以用來(lái)研究隨機偏微分方程和數學(xué)物理方程,預期在數學(xué)和物理的許多領(lǐng)域都有應用。用這個(gè)新的數學(xué)框架可以對原來(lái)不適定的一些隨機偏微分方程給出了嚴格的數學(xué)意義,比如界面運動(dòng)產(chǎn)生的KPZ方程,統計力學(xué)中臨界狀態(tài)的宏觀(guān)行為等。
深度學(xué)習和強化學(xué)習中的概率統計
給大家講講比較有趣的深度學(xué)習和強化學(xué)習中的概率統計。之所以選取這個(gè)題材,是因為四個(gè)月前, AlphaGo戰勝世界圍棋冠軍、韓國九段圍棋手李世石,在人類(lèi)社會(huì )掀起了不小的波瀾。AlphaGo算法設計的主要工具就是深度強化學(xué)習和蒙特卡羅樹(shù)搜索,這里面用到大量的概率統計。 下面我主要講講 AlphaGo用到的概率統計。在講述之前,我公開(kāi)申明:我要感謝微軟亞洲研究院的賀迪。起因是中國科學(xué)院大學(xué)的一二年級大學(xué)生做科創(chuàng )計劃,他們選擇了學(xué)習AlphaGo的科創(chuàng )計劃,研究AlphaGo的概率統計原理,希望我做他們的導師。我就通過(guò)我在微軟工作的過(guò)去的學(xué)生邀請到賀迪,請他給我們作報告介紹AlphaGo的原理。下面介紹的內容部分取自賀迪的報告,部分取自查閱互聯(lián)網(wǎng)獲得的資料,不一一注明知識產(chǎn)權的出處。
人工智能下棋已經(jīng)有很長(cháng)歷史,過(guò)去IBM有一個(gè)深藍團隊,用“深藍”計算機“下國際象棋。國際象棋所有棋局可能性約,圍棋的所有棋局的可能性大約是, 而全地球的原子總數也只有。圍棋所有棋局遠比地球所有原子數目多,這真是一個(gè)大數據。過(guò)去IBM團隊用“深藍”同人類(lèi)下國際象棋時(shí),可以把人所有下國際象棋的步驟窮舉。但是,圍棋做不到,圍棋不能窮舉!你想,這么大的天文數字怎么能窮舉?!圍棋只能用隨機方法、只能用概率方法,這正是體現了概率統計的重要性。
谷歌的研發(fā)團隊用深度學(xué)習和強化深度學(xué)習為 AlphaGo訓練了四個(gè)神經(jīng)網(wǎng)絡(luò ),用通俗的語(yǔ)言,這四個(gè)網(wǎng)絡(luò )分別是:快速走子網(wǎng)絡(luò )、走棋網(wǎng)絡(luò )、強化學(xué)習網(wǎng)絡(luò )和估值網(wǎng)絡(luò )。他們先用3千萬(wàn)局人類(lèi)下棋的棋譜來(lái)有監督地學(xué)習出兩個(gè)模型:其一是用13層的卷積神經(jīng)網(wǎng)絡(luò )學(xué)出來(lái)的走棋網(wǎng)絡(luò ),另一個(gè)是用邏輯回歸學(xué)出來(lái)的快速走子網(wǎng)絡(luò )。這兩個(gè)網(wǎng)絡(luò )都可以近似理解為基于3000萬(wàn)個(gè)有標注的數據< s="" ,="" a="">,評價(jià)在當前局面s下,棋子落在某一位置a的概率,也就是p(a|s)。其中“快速走子網(wǎng)絡(luò )”可以被看作是“走子網(wǎng)絡(luò )”的輕量級版本,它能夠比“走子網(wǎng)絡(luò )”快1000倍,但是精確性較差。在走子網(wǎng)絡(luò )的基礎上,通過(guò)機器和機器自已對弈,由產(chǎn)生多達3000萬(wàn)個(gè)標注樣本,每個(gè)樣本的局面s都來(lái)自不同的一局棋,用大量增加的樣本訓練出強化學(xué)習網(wǎng)絡(luò )。而第四個(gè)網(wǎng)絡(luò ),是在走子網(wǎng)絡(luò )和強化學(xué)習網(wǎng)絡(luò )的基礎上訓練出來(lái)的估值網(wǎng)絡(luò ),它可以估出在當前棋局下勝算的概率值??傮w來(lái)說(shuō),前三個(gè)神經(jīng)網(wǎng)絡(luò )都以當前圍棋的對弈局面為輸入,經(jīng)過(guò)計算后,輸出可能的走子選擇和對應的概率。概率越大的點(diǎn)意味著(zhù)神經(jīng)網(wǎng)絡(luò )更傾向于在那一點(diǎn)走子,這個(gè)概率是針對輸入局面下所有可能的落子點(diǎn)都有一個(gè)概率。第四個(gè)神經(jīng)網(wǎng)絡(luò )是用來(lái)進(jìn)行價(jià)值判斷的, 輸入一個(gè)對弈局面,它會(huì )計算出這個(gè)局面下黑棋和白棋的勝率。我的理解,四個(gè)網(wǎng)絡(luò )都是概率,前三個(gè)都是概率矩陣,第四個(gè)是一個(gè)概率值。
真正對弈的時(shí)候,用的是蒙特卡羅樹(shù)搜索(MCTS)算法, 它也是吸收了概率的思想。 現在很多的計算都是用蒙特卡羅方法, 它的中心思想是按照一定的分布去落點(diǎn), 因為分布是給定的,落點(diǎn)落多的時(shí)候, 自然地,原來(lái)分布所要求的函數就能夠得到, 計算機也就會(huì )把它繪出來(lái)。AlphaGo怎么下圍棋?剛才四個(gè)網(wǎng)絡(luò )做好了,相當于四個(gè)大腦?,F在從當前位置的棋子出發(fā),它要計算不知多少遍,才走出一個(gè)棋子。它怎么走?直觀(guān)地解釋?zhuān)鶕窠?jīng)網(wǎng)絡(luò )選出一個(gè)路徑走,走到一定程度讓它擾動(dòng)一下,再繼續走下去,看它是輸還是贏(yíng),最終給出一個(gè)判斷這一步走子輸贏(yíng)的值,這個(gè)值用快速走子網(wǎng)絡(luò )(它能很快把棋走到底決出勝負)和估值網(wǎng)絡(luò )估出來(lái)的輸贏(yíng)概率按一定公式計算出來(lái)。然后返回到原來(lái)準備要走的地方。這就是蒙特卡羅樹(shù)搜索的一個(gè)基本過(guò)程。這樣的過(guò)程可以不斷重復,一直算到電腦認為最佳為止,或者算到規定下一步必須走子的時(shí)間為止。電腦根據在這之前的所有計算信息綜合出一個(gè)值來(lái),然后決定下一步在哪落子。
我們現在看來(lái),人工智能下圍棋把世界冠軍下贏(yíng),除了電腦計算速度非??熘?,它的算法中概率統計是離不開(kāi)的,功不可沒(méi)!這是概率統計魅力無(wú)窮的一個(gè)實(shí)例。
概率統計在DNA序列分析中的應用.
下面講講概率統計在DNA序列分析中的應用。這部分內容與我們目前的研究方向有關(guān)。今年7月3號我在上海財大舉行的國際生物統計中國分會(huì )做了大會(huì )報告,下面我將取自那里的一些材料,來(lái)說(shuō)明概率統計的作用。這幾年我們做應用,一方面與微軟合作,另一方面與生物學(xué)家合作。我們一直在念Rick Durrett 的《Probability Model and DNA Sequence Evolution》和楊子恒最近的一本書(shū)《Molecular Evolution: A Statistical Approach》(2014年出版)。這一學(xué)期,我們學(xué)生都在念他這本書(shū)。去年,北京召開(kāi)了國際工業(yè)與應用數學(xué)大會(huì ),我是大會(huì )程序委員會(huì )主席,挑選了27個(gè)大會(huì )報告。同時(shí),我和楊子恒共同組織了一個(gè)小的Symposium《Mathematics in Population Genetics and Evolution》, 其主題有下面的一段話(huà):“This symposium will focus on probabilistic modelingand statistical analysis of modern genetic and genomic data, and thestatistical and computational challenges that we face?!彪S著(zhù)當代基因和基因組數據的迅速增加, DNA序列分析越來(lái)越需要生物學(xué)、數學(xué)、統計學(xué)和計算機科學(xué)的共同參與和交叉合作。這方面研究成果也很多,也很活躍。近年來(lái)我們研究組與中科院基因組所、上海馬普生物研究所等單位的生物學(xué)家合作,也做了一些研究工作。我們的研究成果包括:基于同源一致片段推斷人口遷移歷史 , 基于祖先片段推斷人口混合歷史,帶有重組的溯祖新模型,等等。另外,我的學(xué)生朱天琪與楊子恒等人用真實(shí)的DNA數據,結合化石提供的校準區間信息,估計生物進(jìn)化的時(shí)間。他們最主要方法是概率統計的貝葉斯分析,由于改進(jìn)了貝葉斯分析的初始分布,他們得到相對準確的哺乳類(lèi)動(dòng)物的分化年代。這些結果都充分展示了概率統計的魅力。
搜素引擎中的概率統計.
概率統計與信息領(lǐng)域的交叉也是一個(gè)非常有說(shuō)服力展示概率統計魅力的例子。我前些年在各地作公眾報告時(shí)經(jīng)常講這個(gè)例子。
這是我在 Google 中搜尋中國科學(xué)院出現的頁(yè)面。頁(yè)面上標記有 874萬(wàn)條結果, 用時(shí)0.15 秒。計算機很聰明, 并沒(méi)有把 874萬(wàn)條結果不排序地全部列出, 而是把最重要、最相關(guān)的結果排在前面。計算機怎么會(huì )識別哪些結果比較重要, 哪些結果比較不重要呢? 它能讀懂這些頁(yè)面的內容, 然后根據內容來(lái)確定頁(yè)面的重要性嗎? 顯然不可能, 現在的計算機還沒(méi)有發(fā)展到那么先進(jìn)。實(shí)際上很多搜索引擎公司做的一件主要的事, 就是網(wǎng)頁(yè)的排序。網(wǎng)頁(yè)排序包括重要性排序和相關(guān)性排序, 都要用到概率統計。相關(guān)性排序我今天可能沒(méi)時(shí)間講, 我就講講網(wǎng)頁(yè)的重要性排序, 下面我用概率論和馬氏過(guò)程理論來(lái)說(shuō)明網(wǎng)頁(yè)重要性排序的原理。
這里右邊是我們的互聯(lián)網(wǎng), 當然里面有上萬(wàn)上億個(gè)網(wǎng)頁(yè), 為了能夠說(shuō)明清楚, 這里就假定我們有 6 個(gè)網(wǎng)頁(yè)。假如你現在瀏覽頁(yè)面 1, 頁(yè)面 1 有兩個(gè)超鏈接, 一個(gè)指向 2,一個(gè)指向 3, 下一步你很可能點(diǎn)一個(gè)超鏈接就到頁(yè)面 2, 或另一個(gè)超鏈接到頁(yè)面 3, 也就是說(shuō)從頁(yè)面 1 出發(fā), 可能有 1/2 的概率到頁(yè)面 2, 1/2 的概率到頁(yè)面 3。同樣的道理假如從頁(yè)面 3 出發(fā), 頁(yè)面 3 有三個(gè)超鏈接, 所以在瀏覽頁(yè)面 3 的時(shí)候, 可能有 1/3 的概率到頁(yè)面 1, 1/3 的概率到頁(yè)面2, 1/3的機率到頁(yè)面 5, 以此類(lèi)推。如果你現在瀏覽的頁(yè)面沒(méi)有向外的超鏈接, 比如頁(yè)面 2, 那么在瀏覽頁(yè)面 2 時(shí), 下一步也許有相同的概率到任何一個(gè)其它頁(yè)面。當然我這樣描述的上網(wǎng)動(dòng)作并不全面, 因為你也可能不順著(zhù)超鏈接到下一個(gè)頁(yè)面, 而是通過(guò)輸入一個(gè)關(guān)鍵詞或者是一個(gè)網(wǎng)址進(jìn)入下一個(gè)頁(yè)面。假定有概率 α 順著(zhù)超鏈接到另外一個(gè)頁(yè)面, 同時(shí)有 1?α 的概率通過(guò)輸入一個(gè)網(wǎng)址或是關(guān)鍵詞去到另外一個(gè)頁(yè)面, 這兩個(gè)動(dòng)作綜合起來(lái)就是我們上網(wǎng)沖浪的動(dòng)作。這是兩種隨機游動(dòng)組合成的一個(gè)隨機游動(dòng), 連續上網(wǎng)沖浪的動(dòng)作構成一個(gè)馬氏鏈, 它的轉移概率由我們剛才描述的兩個(gè)上網(wǎng)動(dòng)作來(lái)確定。這是一個(gè)不可約馬氏鏈, 它有唯一平穩分布。 Google把馬氏鏈的平穩分布稱(chēng)作 PageRank, 并以此來(lái)為頁(yè)面重要性排序。一個(gè)頁(yè)面的 PageRank 值越高, 即平穩分布在一個(gè)頁(yè)面的值越大, 就認為這個(gè)頁(yè)面越重要。用概率的理論上可以嚴格證明, 平穩分布在一個(gè)頁(yè)面的值正好等于點(diǎn)擊這個(gè)頁(yè)面的平均訪(fǎng)問(wèn)率, 所以用這個(gè)值來(lái)為頁(yè)面的重要性排序很合理。不可約馬氏鏈的平穩分布在計算機上運用迭代法容易實(shí)現。但由于互聯(lián)網(wǎng)的規模很大, 實(shí)際計算時(shí)也需要很長(cháng)時(shí)間。這種計算頁(yè)面重要性的算法出自 1998 年就讀斯坦福大學(xué) (Stanford University) 的博士研究生 Sergey Brin 與 Larry Page, 他們把這個(gè)算法稱(chēng)作 PageRank 算法, 并且編寫(xiě)了一個(gè) PageRank 搜尋工具。他們發(fā)現, 網(wǎng)絡(luò )越大, 鏈接越多, 這個(gè)引擎提供的結果就越準確。于是, 他們將新引擎命名為 Google, 這是 Googol 的變體, Googol 是一個(gè)數字名詞, 表示 10的 100 次方。 Brin 與 Page 于 1998 年在第七次國際 World Wide Web 會(huì )議 (WWW98) 上公布他們的論文“The Page Rank citation ranking:Bringing order to the Web”時(shí), 正在用自己的宿舍作為辦公室初創(chuàng )產(chǎn)業(yè), 這一產(chǎn)業(yè)后來(lái)發(fā)展為龐大的 Google 公司, Brin 和Page 現在已躋身世界上最有錢(qián)的人之列。 PageRank 算法是信息檢索領(lǐng)域里一個(gè)革命性的發(fā)現, 這個(gè)在信息檢索領(lǐng)域看似很困難的問(wèn)題, 用一個(gè)馬氏鏈就能就解決了, 概率統計的用處有時(shí)真是不可估量。我還要補充強調一下, 現在各搜索引擎公司對頁(yè)面的排序, 除了用到PageRank 算法, 或類(lèi)似于 PageRank 算法提供的重要性排序外, 還要考慮相關(guān)性排序和諸多其它因素。
從 1998 年到現在, Google 的 PageRank 算法作為網(wǎng)頁(yè)排序的優(yōu)點(diǎn)已經(jīng)充分顯示, 而缺點(diǎn)也逐漸地暴露出來(lái), 最大的缺點(diǎn)是它只利用了頁(yè)面結構, 沒(méi)有考慮網(wǎng)絡(luò )用戶(hù)的感情。其實(shí)現在有很多的垃圾頁(yè)面, 它的 PageRank 可以排得很高。甚至有些 SPAM 公司, 自已搞個(gè)服務(wù)器, 讓許多頁(yè)面互相連結, 如果對方給錢(qián), 公司就將你的頁(yè)面連結上去, 從而惡意提高頁(yè)面排序。這個(gè)問(wèn)題, 特別是在前幾年, 成為搜索引擎公司非常關(guān)注的問(wèn)題, 怎么樣能夠克服這個(gè)缺點(diǎn), 當時(shí)很多搜索引擎公司都在做。我們跟微軟亞洲研究院在這個(gè)問(wèn)題上也有些合作的關(guān)系。當時(shí)是這樣開(kāi)始的, 記得大概是 2005 年吧, 我那時(shí)候對隨機復雜網(wǎng)絡(luò )感興趣, 辦了一個(gè)隨機復雜網(wǎng)路的討論班。微軟亞洲研究院的一位年輕工作人員來(lái)找我, 想請教我一些問(wèn)題。我借此請他在我們討論班作報告, 他向我們介紹了 Google 的故事。以后我們跟微軟亞洲研究院開(kāi)始合作, 我的學(xué)生也到微軟作實(shí)習生, 共同培養人才。有一次, 一位年輕的研究員和我的學(xué)生一起來(lái)找我, 把用戶(hù)上網(wǎng)紀錄數據拿給我看, 問(wèn)我由這些數據, 能不能夠判斷出頁(yè)面的重要性, 或著(zhù)說(shuō)能不能挖掘出什么樣的訊息來(lái)。我們坐下來(lái)開(kāi)始想這個(gè)能做什么用。當然我們是學(xué)概率的, 所以我們就想到這是個(gè)隨機過(guò)程, 它不是確定性的, 當然它也是跳過(guò)程, 一跳一跳的。我們猜想其中比較關(guān)鍵的是, 在這個(gè)頁(yè)面上你下一步到哪個(gè)頁(yè)面去, 或者你在這個(gè)頁(yè)面上停留多少時(shí)間, 這些在很大程度上, 只跟頁(yè)面的內容有關(guān), 而跟你以前訪(fǎng)問(wèn)過(guò)哪些頁(yè)面無(wú)關(guān)。因此作為一階近似, 這個(gè)過(guò)程很可能是一個(gè)馬氏過(guò)程, 它將來(lái)的發(fā)展只與現在有關(guān), 跟過(guò)去無(wú)關(guān)。另一個(gè)想法, 你上午看這個(gè)頁(yè)面或下午看這個(gè)頁(yè)面, 你的動(dòng)作可能差不多, 所以還應該是時(shí)間齊次的。所以當時(shí)我們就分析, 也許可以把所有人群上網(wǎng)的動(dòng)作, 近似的看作是一個(gè)時(shí)間齊次的馬氏跳過(guò)程。當然,要判斷它是不是時(shí)間齊次馬氏跳過(guò)程, 要用到概率知識, 假如真的是時(shí)間齊次馬氏過(guò)程, 那么用戶(hù)在一個(gè)頁(yè)面停留的時(shí)間, 應該是負指數分布, 這是馬氏過(guò)程理論的一個(gè)基本結果。我們建議微軟把他們的數據拿來(lái)檢驗一下, 于是微軟亞洲研究院的相關(guān)研究組用真實(shí)資料作了大量實(shí)驗模擬, 由我當時(shí)在微軟實(shí)習的學(xué)生劉玉婷設計算法, 發(fā)現用戶(hù)在網(wǎng)頁(yè)的停留時(shí)間基本服從負指數分布。這個(gè)分析出來(lái)之后, 我們相信可以用馬氏過(guò)程來(lái)研究上網(wǎng)動(dòng)作, 微軟亞洲研究院成立了一個(gè)小組主攻這個(gè)項目, 劉玉婷當時(shí)作為微軟的實(shí)習生也在這個(gè)研究小組。這個(gè)研究小組做得非常好, 在微軟相關(guān)研究員的帶領(lǐng)下, 他們克服了種種難關(guān), 每一步都在課題組內反復論證, 深入探討, 反復模擬實(shí)驗。這里面含有許多奇思構想和巧妙的數學(xué)。微軟亞洲研究院從產(chǎn)品部門(mén)調來(lái)大量數據, 做了大規模模擬實(shí)驗。2008 年 7 月, 在新加坡召開(kāi)的的第 31 屆國際信息檢索大會(huì )上, 劉玉婷報告了他們的論文:《瀏覽排序: 讓因特網(wǎng)使用者為頁(yè)面重要性投票》, 論文獲得了會(huì )議設立的唯一最佳學(xué)生論文獎。這篇文章, 據說(shuō)他們修改了八十一次, 在新加坡得獎之后, “Browse Rank”成了業(yè)內的熱
門(mén)話(huà)題。最熱的時(shí)候, 輸入關(guān)鍵詞 Browse Rank 有 157,000,000 個(gè)結果。當時(shí)網(wǎng)頁(yè)的文章, 有的題目是“Browse Rank vs Page Rank”, 有的說(shuō)“Microsoft Lauches Browse Rank To CompeteWith Page Rank”, 還有“Live Search is researching a rankingfeature similar to Google’s Page Rank called Browse Rank”, 等等。網(wǎng)上還有一個(gè)以“BrowseRank the next PageRank”為題目的視頻介紹微軟亞洲的研究人員開(kāi)發(fā)的 Browse Rank。這是前幾年的事, 當然了, 一個(gè)新產(chǎn)品的開(kāi)發(fā)還與許多其它因素有關(guān), 現在也沒(méi)有 Browse Rank 出現, 但是說(shuō)明當時(shí)這個(gè)工作在訊息檢索領(lǐng)域引起了一些關(guān)注。我們與微軟現在還有合作, 現在我還有學(xué)生在微軟, 已經(jīng)是正式的員工。從做科學(xué)研究的角度來(lái)說(shuō), 我們感到高興的是我們第一個(gè)用 Browsing Process 刻畫(huà)了真
實(shí)的用戶(hù)上網(wǎng)行為。我相信今后人們在研究用戶(hù)上網(wǎng)行為時(shí), 一定會(huì )想到 Browsing Process, 應用并發(fā)展 Browsing Process 的理論和實(shí)踐。上面說(shuō)到我們發(fā)現用戶(hù)上網(wǎng)的一階近似可以用馬氏過(guò)程來(lái)刻畫(huà), 后來(lái)我們又有進(jìn)一步發(fā)揮, 在這個(gè)基礎上提出了 web 馬氏骨架過(guò)程,之所以提出 web 馬氏骨架過(guò)程, 是因為后來(lái)研究手機網(wǎng)的搜索引擎時(shí), 發(fā)現它不完全是馬氏過(guò)程, 最多可以算是 web 馬氏骨架過(guò)程, 也就是說(shuō)它有一個(gè)骨架是馬氏的, 而它的等待時(shí)間不僅依賴(lài)當前頁(yè)面, 還依賴(lài)以前的頁(yè)面。由于手機上面網(wǎng)頁(yè)的超鏈接, 跟一般普通網(wǎng)頁(yè)超級連接的設計不一樣。
聯(lián)系客服