狗熊會(huì )的鐵粉一定會(huì )發(fā)現,有些關(guān)鍵詞在熊大的文字里反反復復地出現。這些關(guān)鍵詞從很大程度上反應了熊大的理念。其中一個(gè)經(jīng)常出現的關(guān)鍵詞就是:“快樂(lè )”。這說(shuō)明,在熊大的腦袋里,數據分析應該是快樂(lè )的。但是,悲催的現實(shí)是,對于很多老師、同學(xué)、從業(yè)者而言,數據分析是痛苦的。這讓熊大嘗試去觀(guān)察、對比、理解:為什么數據分析對于熊大是快樂(lè )的?這背后的原因是什么?經(jīng)過(guò)一定的觀(guān)察,我發(fā)現很多數據分析的“痛苦”都源于以下幾種“執著(zhù)”:
這里不是說(shuō)高大上的方法(例如:深度學(xué)習、超高維數據分析)不帶來(lái)分析的快樂(lè )。而是說(shuō):數據分析是否快樂(lè ),同方法是否高大上似乎沒(méi)有什么必然的關(guān)系。王老師自己也發(fā)表了幾十篇體面的國際論文,也算是有點(diǎn)高大上的方法了。但是,說(shuō)句大實(shí)話(huà),其中能給我帶來(lái)數據分析快樂(lè )的文章,少之又少。相反,課堂上同學(xué)的一個(gè)簡(jiǎn)單搞笑的星座數據分析,本科生脫光案例研究,能給我很多快樂(lè )。
在數據分析的課堂上,常常有同學(xué)垂頭喪氣,說(shuō):“王老師,我們做的不好,R方才40%不到,精度真差!”對此,我總是不解地問(wèn):“那要多好才叫好?”要知道,一個(gè)問(wèn)題的最終預測精度能多準,不是任何模型方法可以決定的,這是由X和Y之間的內在關(guān)系確定的,不以個(gè)人意志為轉移。任何預測方法,都是在一個(gè)非常有限地范圍內,做有限改進(jìn),不會(huì )從本質(zhì)上改變問(wèn)題的預測精度。因此,預測“不準”是常態(tài),預測“準確”是變態(tài),常常是程序或者數據出錯了。預測精度要多好才算好,這要看業(yè)務(wù)實(shí)踐,要看參考系。對預測精度的盲目執著(zhù),讓你失去了數據分析的快樂(lè )。
例如,當我們要做一個(gè)數據分析的時(shí)候,人們常常說(shuō):“你咋沒(méi)有這個(gè)數據?你咋沒(méi)有那個(gè)數據?你要是有XXX數據就好了”。我心想:你咋不上天???這就是對完美數據的盲目執著(zhù)。這不是說(shuō)我們不需要努力獲得更多數據。而是說(shuō),我們必須了解,沒(méi)有任何實(shí)際問(wèn)題的數據可以是“完美”的。所有的實(shí)際問(wèn)題都是在“不完美”數據的支撐下完成的。我們必須要習慣于同不完美數據友諧相處,要學(xué)會(huì )欣賞不完美數據的完美。不要執著(zhù)于對完美數據的妄想,而要享受不完美數據帶來(lái)的快樂(lè )。
很多朋友還經(jīng)常給王老師說(shuō):“我們有一個(gè)問(wèn)題特別有趣,但是樣本量不大,也就幾百幾千,實(shí)在不是大數據!”不是大數據,就不可以做數據分析了嗎?要知道絕大多數數據分析的樣本量都不大,都達不到我們“大數據”的標準。但是,這樣的數據分析,一樣非常有用,一樣非常有趣,帶給我們很多的快樂(lè )。要知道,數據分析的失敗,絕大多數情況,是由于我們對業(yè)務(wù)的無(wú)知,而不是樣本量的缺乏。
大家一定會(huì )問(wèn)了,王老師,你說(shuō)了半天都是“執著(zhù)”,都是“不快樂(lè )”。那你的“快樂(lè )”來(lái)自哪里?我的快樂(lè )主要來(lái)自于自己的無(wú)知。無(wú)知產(chǎn)生好奇,好奇心帶來(lái)驚喜,驚喜帶來(lái)快樂(lè )。舉幾個(gè)具體的例子。
例1:對車(chē)聯(lián)網(wǎng)的無(wú)知,讓我對車(chē)聯(lián)網(wǎng)數據產(chǎn)生了巨大的興趣。相關(guān)分析帶給我的驚喜是:基于數據定義的急加速急剎車(chē)是如此有趣。這就是,車(chē)聯(lián)網(wǎng)數據,之于我的快樂(lè )所在。
例2:對互聯(lián)網(wǎng)征信的無(wú)知,讓我產(chǎn)生了巨大的興趣。相關(guān)分析告訴我,原來(lái)一個(gè)人的簡(jiǎn)歷中就包含著(zhù)信用信息。這是一個(gè)大大的驚喜,這就是我的快樂(lè )所在。
例3:對廣告行業(yè)的無(wú)知,刺激我去關(guān)心:廣告費到底浪費在哪里?而搜索引擎營(yíng)銷(xiāo)的數據表明:搜索文本中,一個(gè)小小的空格,能夠產(chǎn)生巨大的廣告效果差異。這就是SEM數據之于我的快樂(lè )所在。
例4:對社交網(wǎng)絡(luò )的無(wú)知,讓我好奇,一個(gè)人的社交地位,會(huì )如何影響他的行為?基于SNS數據的數據表明,社交中處于重要位置的人,有可能更加忠誠。這太有意思了,這就是SNS數據之于我的快樂(lè )所在。
這樣的例子我可以舉出很多,都讓我非??鞓?lè )!這一切,同數據分析方法是否高大上,預測精度是否高,數據是否完美,樣本量是否足夠大,統統沒(méi)有半點(diǎn)關(guān)系。數據分析,之于我的快樂(lè ),不在數據,不在統計軟件,不在分析方法,而在于我自己的無(wú)知,以及無(wú)知所產(chǎn)生的好奇心!
聯(lián)系客服