轉自|數據派
微信|datapi
本文基于第一屆網(wǎng)絡(luò )經(jīng)濟與大數據國際會(huì )議申德周的演講稿整理而成。?回復“股票預測”下載完整PPT
王勇院長(cháng)、杰出的各位教授們、社科學(xué)院的同學(xué)們以及各位來(lái)賓:
下午好!我很榮幸今天來(lái)到這里做這篇關(guān)于大數據和股市預測的演講。當圖索麗女士邀請我今天來(lái)參加第一屆網(wǎng)絡(luò )經(jīng)濟與大數據國際會(huì )議時(shí),我想,來(lái)給遠比我專(zhuān)業(yè)比我權威的專(zhuān)家學(xué)者演講?這事我能做。
大數據是近些年來(lái)的熱門(mén)話(huà)題,無(wú)論國際上還是國內,影響很大。經(jīng)濟學(xué)、政治學(xué)、社會(huì )學(xué)和許多科學(xué)門(mén)類(lèi)都會(huì )發(fā)生巨大甚至是本質(zhì)上的變化和發(fā)展,進(jìn)而影響人類(lèi)的價(jià)值體系、知識體系和生活方式。而全球經(jīng)濟目前生成了史無(wú)前例的大量數據,如果把每天產(chǎn)生的大量數據比作神話(huà)時(shí)期的大洪水是完全正確的,這個(gè)數據洪流是我們前所未見(jiàn)的,他是全新的、強大的、當然,也是讓人恐慌但又極端刺激的。
我2007年從南京大學(xué)本科畢業(yè),獲得軟件工程學(xué)士學(xué)位;2015年進(jìn)入清華大學(xué)計算機專(zhuān)業(yè),攻讀碩士學(xué)位;可以說(shuō),這個(gè)世界在這短短的10年當中發(fā)生了翻天覆地的變化,移動(dòng)互聯(lián)網(wǎng)、云計算、大數據在悄然改變著(zhù)我所生存的環(huán)境。10年前,智能手機還未誕生,而如今小米手機、蘋(píng)果手機已普及到每個(gè)人手中。
我非常欣賞現代管理學(xué)之父-彼得-德魯克的話(huà)“預測未來(lái)的最佳方式就是創(chuàng )造它! ”。我也欣賞美國波士頓大學(xué)教授瑪麗-克洛寧博士所描述的“互聯(lián)網(wǎng)可以讓資金以光速到達全球的任何角落”。2012年以來(lái),在互聯(lián)網(wǎng)與金融在中華大地掀起了一股股創(chuàng )新熱潮下,在中國在教育程度及經(jīng)濟增長(cháng)方面都已是世界的領(lǐng)先者這樣的環(huán)境下,作為清華大學(xué)的畢業(yè)生的我們,擔負著(zhù)領(lǐng)導中國,領(lǐng)導全球的使命。
而我所分享的話(huà)題,正是在互聯(lián)網(wǎng)環(huán)境下,如何利用大數據技術(shù),進(jìn)行股票預測的研究。--今天,我想分享我認為有意義的四點(diǎn)。
第一、大數據下的商業(yè)預測

根據大數據,我們可以有效地進(jìn)行故障、人流、流量、用電量、股票市場(chǎng)、疾病預防、交通、食物配送、產(chǎn)業(yè)供需等方面的預測。而本文我們所關(guān)心的內容是股票市場(chǎng)的預測。



大數據的核心是預測,預測依賴(lài)于對數據的分析。那么分析的方法是否是基于隨機采樣的結果而設計的,這樣的分析方法是否會(huì )有誤差?
從傳統認識上,由于資源和科技的局限,如人和計算資源受限、從計算機處理能力來(lái)講無(wú)法處理全部數據來(lái)獲取人們所關(guān)注的結果。因此隨機采樣應運而生,通過(guò)所選取的個(gè)體來(lái)代表全體,如使用隨機抽取的方式來(lái)使得推論結果更科學(xué)。但既然提到了大數據,它是資源發(fā)展到一定程度、以及技術(shù)發(fā)展到一定階段產(chǎn)生的一個(gè)新的認識。如同電力的出現,使人類(lèi)進(jìn)入了一個(gè)快速發(fā)展階段,大數據也一樣,它的含義是全體樣本,從整體樣本來(lái)做推論。在本文大數據的含義是所有股票在整個(gè)社交網(wǎng)絡(luò )上的流動(dòng)信息,從數據源上講,本文沒(méi)有采用所有社交網(wǎng)絡(luò )上的數據,只分析了微信這個(gè)最具代表性的社交媒體作為信息源。

互動(dòng)數據能反映用戶(hù)情緒,搜索數據能反映用戶(hù)的關(guān)注點(diǎn)和意圖,在股市預測時(shí)這兩種數據哪種更具有參考價(jià)值?
我認為都有價(jià)值,互動(dòng)數據反映了用戶(hù)對某一特定股票的喜好和厭惡,可以簡(jiǎn)單描述為對該股票的操作是繼續持有還是賣(mài)出;而搜索數據則代表用戶(hù)在收集該股票信息的過(guò)程,它是關(guān)注度的概念,某只股票搜索度高則意味著(zhù)消息的影響力大?;?dòng)代表著(zhù)方向,搜索代表著(zhù)振幅。
我們知道這兩種數據得出的結論會(huì )有差異,您是如何平衡這兩種數據反映的情況來(lái)進(jìn)行預測的?

正如上一個(gè)問(wèn)題里提到的,如果是股票推薦,買(mǎi)進(jìn)賣(mài)出等原則問(wèn)題,則應該考慮互動(dòng)數據,但如果已經(jīng)買(mǎi)到手了,搜索數據可以提供一個(gè)幅度的概念,類(lèi)似債券評級A級、AA級、AAA級等,供投資者參考,因為不同投資者對風(fēng)險的承受度是不同的。
將股票和市場(chǎng)的消息整理成140字的短消息發(fā)布,是否意味著(zhù)主要發(fā)布渠道是微博?現在微信公眾號很火,有沒(méi)有考慮通過(guò)這個(gè)渠道也發(fā)布消息?
事實(shí)上,信息傳播的方式很多,微信作為新媒體當然影響力不容小覷,但目前技術(shù)投入最小的還是郵件、短信等方式,未來(lái)會(huì )考慮使用公眾號來(lái)推送股票和市場(chǎng)消息。
如果在未來(lái)通過(guò)微信公眾號推送消息,那么推送的消息會(huì )不會(huì )作為數據來(lái)源被再次采集?這會(huì )有多大的影響?
會(huì )被采集,但互聯(lián)網(wǎng)上的每日關(guān)于個(gè)股的信息數量會(huì )達到很大,該推送會(huì )增加推薦股票1點(diǎn)權重,每只股票的權重成百上千,因此影響極小。
數據來(lái)源是微信公眾號,除了準確性的考慮之外,是否還考慮過(guò)這樣收集數據會(huì )較少觸犯個(gè)人隱私?
從法律角度來(lái)看,搜索微信或其他個(gè)人聊天記錄,是侵犯個(gè)人隱私權的,因此如果騰訊開(kāi)放了這樣的接口,每個(gè)公民都可以對這樣的行為進(jìn)行投訴、抗議、甚至進(jìn)行法律起訴直至其改正過(guò)錯、賠償損失的。

這樣是否意味著(zhù)即使存在違法的行為,其結果也是由騰訊來(lái)承擔,而我們作為數據的使用方不需要承擔任何法律責任?

在整個(gè)社會(huì ),我們作為系統技術(shù)提供方,應恪守大數據的倫理道德,遵守國家法律,如侵犯個(gè)人隱私,系統不會(huì )采集,谷歌有一句座右銘“谷歌不作惡”,本文提到的系統也一樣。
第二、基于大數據進(jìn)行股票推薦實(shí)驗

通過(guò)搜狗網(wǎng)站的微信搜索欄目http://weixin.sogou.com/,我們可以查詢(xún)到股票相關(guān)訂閱文章,以此作為我們大數據分析的數據來(lái)源。
股票的熱度反應了當前某只股票被關(guān)注的頻度,關(guān)注頻度越大,上漲的可能性越高。


數據的完整性:我們采用循環(huán)的方式對所有深滬兩地發(fā)行約2236只股票(創(chuàng )業(yè)版除外)在微信搜索網(wǎng)站上的搜索結果進(jìn)行保存。
數據的一致性:文件格式由負責保存數據文件的程序決定,單一的流程保障了文件的一致性。
數據的準確性:由于所分析的訂閱號文章的是由微信公共平臺的公眾號所提供,在一定程度上杜絕了虛假消息對于預測系統的破壞。
數據的及時(shí)性:考慮到磁盤(pán)讀寫(xiě)以及采集程序所處的網(wǎng)絡(luò )帶寬,以及搜索引擎對于采集程序的屏蔽,程序中采集兩條信息之間間隔了5秒,因此理論上11180秒(3.1個(gè)小時(shí))可收集完當日推薦所需要的數據。對于每個(gè)交易日,在9點(diǎn)-9點(diǎn)30分之間采集所有數據,需要7臺以上的設備可達到最佳效果。本次試驗受限于試驗設備,在一臺設備上,交易日每天早六時(shí)開(kāi)始進(jìn)行數據采集,也滿(mǎn)足及時(shí)性要求。

數據分析:查看三個(gè)高優(yōu)先級的股票,該股票當日的開(kāi)盤(pán)價(jià)與收盤(pán)價(jià),再與當日(2015-4-8)上證綜指進(jìn)行比較,可得在收益上該算法是優(yōu)于上證綜指為樣本的整體股票的股價(jià)差收益的。
實(shí)驗結論:按照上述方式,系統每天推薦出當日股票,在開(kāi)盤(pán)時(shí)進(jìn)行買(mǎi)進(jìn),在第二個(gè)交易日進(jìn)行賣(mài)出。經(jīng)過(guò)一個(gè)月21個(gè)交易日(2015-3-1至2015-3-31),系統的收益為20%/月。通過(guò)微信搜索公眾號來(lái)預測市場(chǎng)走勢和投資情緒呈現出正相關(guān)性,因此可以作為股票甄選的因子。
第三、股票預測的大數據發(fā)展趨勢
網(wǎng)絡(luò )數據分成三種:一是瀏覽數據,主要用于電商領(lǐng)域的消費者行為分析,瀏覽數據反映了用戶(hù)每一步的訪(fǎng)問(wèn)腳步,進(jìn)一步刻畫(huà)出用戶(hù)的訪(fǎng)問(wèn)路徑,分析不同頁(yè)面的跳轉概率等。二是搜索數據,主要指搜索引擎記錄的關(guān)鍵詞被搜索頻次的時(shí)間序列數據,能反映數億用戶(hù)的興趣、關(guān)注點(diǎn)、意圖。三是互動(dòng)數據,主要是微博、微信、社交網(wǎng)站的數據,反映用戶(hù)的傾向性和情緒因素。



2013年諾貝爾經(jīng)濟學(xué)獎得主羅伯特·席勒的觀(guān)點(diǎn)被無(wú)數采訪(fǎng)對象引述。席勒于上世紀80年代設計的投資模型至今仍被業(yè)內稱(chēng)道。在他的模型中,主要參考三個(gè)變量:投資項目計劃的現金流、公司資本的估算成本、股票市場(chǎng)對投資的反應(市場(chǎng)情緒)。他認為,市場(chǎng)本身帶有主觀(guān)判斷因素,投資者情緒會(huì )影響投資行為,而投資行為直接影響資產(chǎn)價(jià)格。
計算機通過(guò)分析新聞、研究報告、社交信息、搜索行為等,借助自然語(yǔ)言處理方法,提取有用的信息;而借助機器學(xué)習智能分析,過(guò)去量化投資只能覆蓋幾十個(gè)策略,大數據投資則可以覆蓋成千上萬(wàn)個(gè)策略。

基于互聯(lián)網(wǎng)搜索數據和社交行為的經(jīng)濟預測研究,已逐漸成為一個(gè)新的學(xué)術(shù)熱點(diǎn),并在經(jīng)濟、社會(huì )以及健康等領(lǐng)域的研究中取得了一定成果。在資本市場(chǎng)應用上,研究發(fā)現搜索數據可有效預測未來(lái)股市活躍度(以交易量指標衡量)及股價(jià)走勢的變化。
對于搜索數據:互聯(lián)網(wǎng)搜索行為與股票市場(chǎng)的關(guān)聯(lián)機理。這個(gè)研究屬于行為金融與互聯(lián)網(wǎng)的交叉領(lǐng)域,其原理是:股票量?jì)r(jià)調整是投資者行為在股票市場(chǎng)上的反應;與此同時(shí),投資者行為在互聯(lián)網(wǎng)搜索市場(chǎng)也有相應地行為跡象,我們要做到是:找到互聯(lián)網(wǎng)搜索市場(chǎng)中領(lǐng)先于股票交易的行為指標,綜合眾多投資者的先行搜索指標,對未來(lái)的股票交易做出預判。
如同天氣預報那樣,不斷優(yōu)化模型、灌入海量信息,然后給出結果。并且在處理的信息中,有80%是“非結構化”數據,例如政策文件、自然事件、地理環(huán)境、科技創(chuàng )新等,這類(lèi)信息通常是電腦和模型難以消化的。采用了語(yǔ)義分析法,可以將互動(dòng)數據里的金融對話(huà)量化為“-1(極度看空)”到“1(極度看多)”之間的投資建議,通過(guò)分析互動(dòng)數據的數據文本,作為股市投資的信號。
第四、正在發(fā)生的未來(lái)

大數據并不是一個(gè)充斥著(zhù)算法和機器的冰冷世界,人類(lèi)的作用依然無(wú)法被完全替代。大數據為我們提供的不是最終答案,只是參考答案,幫助是暫時(shí)的,而更好的方法和答案還在不久的將來(lái)。
大數據在實(shí)用層面的影響很廣泛,解決了大量的日常問(wèn)題。大數據更是利害攸關(guān)的,它將重塑我們的生活、工作和思維方式。在某些方面,我們面臨著(zhù)一個(gè)僵局,比其他劃時(shí)代創(chuàng )新引起的社會(huì )信息范圍和規模急劇擴大所帶來(lái)的影響更大。我們腳下的地面在移動(dòng)。過(guò)去確定無(wú)疑的事情正在受到質(zhì)疑。大數據需要人們重新討論決策、命運和正義的性質(zhì)。擁有知識曾意味著(zhù)掌握過(guò)去,現在則意味著(zhù)能夠預測未來(lái)。
大數據并不是一個(gè)充斥著(zhù)算法和機器的冰冷世界,其中仍需要人類(lèi)扮演重要角色。人類(lèi)獨有的弱點(diǎn)、錯覺(jué)、錯誤都是十分必要的,因為這些特性的另一頭牽著(zhù)的是人類(lèi)的創(chuàng )造力、直覺(jué)和天賦。這提示我們應該樂(lè )于接受類(lèi)似的不準確,因為不準確正是我們之所以為人的特征之一。就好像我們學(xué)習處理混亂數據一樣,因為這些數據服務(wù)的是更加廣大的目標。必將混亂構成了世界的本質(zhì),也構成了人腦的本職,而無(wú)論是世界的混亂還是人腦的混亂,學(xué)會(huì )接受和應用他們才能得益。

我相信,利用基礎數據、搜索數據、互動(dòng)數據再進(jìn)行加權計算,可以對所有股票進(jìn)行大數據遴選,從而給出投資建議。我認為,我們的肉身剛剛步入大數據時(shí)代,但我們的精神還滯留在小數據、采樣思維之中,率先用理性擊碎固有思維的人,也將率先獲得大數據帶來(lái)的益處。

最后,我送上四個(gè)祝愿:

聯(lián)系客服