文章發(fā)布于公號【數智物語(yǔ)】 (ID:decision_engine),關(guān)注公號不錯過(guò)每一篇干貨。
轉自 | CrossHands
作者 | Ahong
作為數據分析師,你是否常因為缺乏分析思路,而被以下問(wèn)題影響到幸福感(甚至懷疑人生)?
1. 新上線(xiàn)某個(gè)產(chǎn)品,需要監控轉化率效果,既要看總體情況,也要看細分渠道;
2. 策劃營(yíng)銷(xiāo)活動(dòng),預算有限,要看看選擇哪些目標用戶(hù)群、采用哪種方案帶來(lái)的銷(xiāo)量更高(更能拉動(dòng)KPI);
3. KPI又出現較大波動(dòng),待會(huì )領(lǐng)導估計要問(wèn)起來(lái),趕緊分析數據找原因;
一個(gè)問(wèn)題就是從天上隨機掉落的食材,分析思維就是將這些奇形怪狀的食材加工成“看得懂”的美味佳肴。既然要做菜,有哪些值得借鑒的“萬(wàn)金油”菜譜呢? 本篇會(huì )為你慢慢道來(lái)。
01
流程
完成一項任務(wù),通常需要一系列操作,比如做菜,得先想好吃啥,然后買(mǎi)菜、洗菜、切菜、炒菜。
1.1
行動(dòng)步驟
行動(dòng)步驟就是先確定起點(diǎn)、終點(diǎn)(目標),然后將起點(diǎn)和終點(diǎn)的距離拆分成一個(gè)個(gè)小步驟,知道先做什么,后做什么。
注:圖中小黑點(diǎn)表示該步驟下可以選擇的行動(dòng)方案
e.g. 常見(jiàn)的數據分析路徑之一是SAS公司提出的SEMMA范式:
1. Sample,數據抽樣,保證數據的效度和信度;
效度是指數據的準確性,也指選擇的數據和分析目標及業(yè)務(wù)目標是吻合的;
信度是指數據的穩定性,要保證樣本數據有代表性,且在一定周期內不能有過(guò)大的波動(dòng)(否則模型不穩定);
2. Explore,數據特征探索及預處理,e.g. 看數據的分布情況、對數據進(jìn)行標準化等;
3. Modefy,明確問(wèn)題、模型選擇、方案調整;
4. Model,執行建模方案;
5. Assess,結果評估(準確性、穩定性、是否符合業(yè)務(wù)預期、效益如何);
另一個(gè)常用的數據分析范式是CRISP-DM,分為6個(gè)步驟:
1. 商業(yè)理解:確定業(yè)務(wù)目標,評估現有資源,確定分析目標,制定解決方案;
2. 數據理解:數據采集,探索分析,數據質(zhì)量驗證;
3. 數據準備:篩選數據,數據清洗,整合數據,變量衍生;
4. 建立模型:模型選擇,檢驗設計,模型建立,結果評估;
5. 模型評估:分析結果和業(yè)務(wù)目標匹配度確認,檢查1-4步的執行過(guò)程,確定下一步行動(dòng);
6. 結果部署:規劃部署方案、監控和維護方案,輸出項目報告,項目復盤(pán);
e.g. 一個(gè)報表上線(xiàn)的基本步驟如下:
需求登記 --> 方案規劃 --> 需求排期 --> 數據ETL--> 代碼編寫(xiě) --> 數據驗證 --> 報表上線(xiàn)
1.2
分步轉化
要連續完成多個(gè)步驟,有的人“淺嘗輒止”,有的人“半途而廢”,有的人則是“善始善終”。
產(chǎn)品轉化的每個(gè)步驟都會(huì )有用戶(hù)流失,好比100個(gè)人參加有9個(gè)關(guān)卡的淘汰游戲,每個(gè)關(guān)卡會(huì )淘汰10個(gè)人,整個(gè)游戲最終會(huì )剩下10個(gè)獲勝者,把這個(gè)游戲看作產(chǎn)品,那么該產(chǎn)品的全流程轉化率就是10%(游戲獲勝率)。

注:電商APP一般的轉化漏斗
e.g. 常見(jiàn)的電商流程如下:
注冊-->登錄-->瀏覽商品-->加購物車(chē)-->支付-->售后
將上述步驟整理成魚(yú)骨圖,每個(gè)大步驟下還可以拆分更細的小步驟;
比如“支付環(huán)節”可以拆分為:
收貨地址確認--> 選擇優(yōu)惠 --> 選擇支付方式 --> 輸入短信驗證碼-->返回支付結果(成功或失敗)
e.g. 在用戶(hù)運營(yíng)理念中有這樣一個(gè)轉化公式:路人-->用戶(hù)-->粉絲-->員工,先把圍觀(guān)的感興趣的路人轉化為用戶(hù),輕度用戶(hù)是產(chǎn)品的使用者,中度用戶(hù)是產(chǎn)品的“追隨者”,重度用戶(hù)則會(huì )主動(dòng)參與產(chǎn)品的功能反饋和改進(jìn)建議,在這個(gè)轉化過(guò)程中用戶(hù)的參與度逐步提高。
1.3
閉環(huán)迭代
一般的閉環(huán)流程包括3部分:事前方案規劃,事中執行監控,事后復盤(pán)總結。
e.g. 營(yíng)銷(xiāo)活動(dòng)
事前:確定目標,選定用戶(hù),制定方案,確定檢驗標準等;
事中:實(shí)時(shí)數據監控(是否達到預期),不同方案賽馬,備用方案啟用等;
事后:對整個(gè)流程復盤(pán),總結經(jīng)驗,CSS歸類(lèi)(Continue做先前已驗證的正確的事,Stop做錯誤的事,Start做新的正確的事)
常用的閉環(huán)迭代框架是PDCA,通過(guò)計劃(P)、實(shí)施(D)、檢查(C)、總結(A)4個(gè)步驟,循環(huán)迭代,螺旋上升。

另外還要注意,在使用流程化思維時(shí),除了常見(jiàn)的正向思考,也要逆向思考。
02
分類(lèi)
互聯(lián)網(wǎng)時(shí)代最核心的經(jīng)營(yíng)理念是深耕客群,通過(guò)差異化運營(yíng)提升ARPU值(Average Revenue Per User,每用戶(hù)平均收入),而分類(lèi)無(wú)疑是開(kāi)展這項工作的重要前提。
主要有4種分類(lèi)方法:
二分法,非此即彼,e.g. 網(wǎng)站新客、老客,貸款審批結果分為通過(guò)申請、拒絕申請等;
并列分類(lèi),多個(gè)分類(lèi)(子集)構成一個(gè)全集,e.g. 用戶(hù)地域可以按省份劃分,按年齡可以將用戶(hù)分為70后、80后、90后、00后等,女性用戶(hù)群體可以分為時(shí)尚麗人、都市白領(lǐng)、家庭主婦等;
等級分類(lèi),e.g. 會(huì )員等級——鐵牌、銅牌、銀牌、金牌、鉆石、皇冠,城市等級——一線(xiàn)、二線(xiàn)、三線(xiàn)、四線(xiàn);
矩陣象限,e.g. 波士頓矩陣,RFM象限

注:圖片來(lái)自網(wǎng)絡(luò )
分類(lèi)的規則大致有兩類(lèi):
按主體分類(lèi),
e.g. 按社會(huì )關(guān)系模型,用戶(hù)角色可以是父母、配偶、子女、朋友等;
e.g. 按照群體劃分,可以分為一般情況和特殊情況、二八原則等;
按屬性分類(lèi),依據主體(比如用戶(hù))的屬性進(jìn)行類(lèi)別劃分。
e.g. 用戶(hù)畫(huà)像時(shí)可以考慮以下屬性:
1. 社會(huì )屬性:收入水平、學(xué)歷、職業(yè)、婚姻情況等
2. 位置屬性:居住地、工作地、從手機端還是PC端登錄等
3. 生物屬性:年齡、性別、種族等
4. 心理屬性:品牌偏好、購買(mǎi)行為、優(yōu)惠偏好等
03
對比
“痛苦來(lái)自比較之中”(沒(méi)有比較就沒(méi)有傷害),其實(shí)幸福也來(lái)自比較之中,痛苦還是幸福,取決于選擇的參照點(diǎn)是高于還是低于你。
對比就是找一個(gè)參照點(diǎn),來(lái)發(fā)現兩個(gè)數據間的差異量Δ大小如何。
對比可以分為兩類(lèi):橫向對比、縱向對比。
3.1
橫向對比

和同類(lèi)(競品)比較,e.g. 對比不同品牌的女裝的銷(xiāo)售情況,不同銷(xiāo)售渠道(地區)的交易情況;
實(shí)驗對比,設置實(shí)驗組和對比組,對比兩組或多組之間的差異,以確定人為干預(實(shí)驗、方案)的效應。
e.g. 比較不同的產(chǎn)品或運營(yíng)方案的效果差異時(shí),常采用AB Test,需要確保對比的兩組或者多組在數量和結構上要具有可比性(e.g. 用戶(hù)的來(lái)源、等級等需要匹配);
和整體比較,e.g. 華東地區的銷(xiāo)售情況和全國總體銷(xiāo)售比較;
做組間比較時(shí),一定要確保樣本的可比性(無(wú)論是在數量級還是在群體結構上),e.g. 對比兩個(gè)時(shí)間段的交易情況,建議剔除掉大促和節假日(這些交易日的數據波動(dòng)很大)。
有兩類(lèi)不易察覺(jué)的樣本錯誤尤其要提防:
“辛普森悖論”,即兩個(gè)樣本單獨得到的結論和樣本合并后得到的結論相反。
e.g. 如下表所示,單獨看APP端和PC端,新客的轉化率都是低于老客的,但是,整體新客的轉化率卻高于老客。

注:以上數據僅作為說(shuō)明概念使用,不代表真實(shí)場(chǎng)景
“幸存者偏差”,即樣本已經(jīng)被容易忽略的因素篩選過(guò)。
e.g. 問(wèn)卷調查中,那些愿意填寫(xiě)問(wèn)卷的用戶(hù)本身就是對產(chǎn)品有高認可度;
e.g. 產(chǎn)品漏斗轉化流程中,處在不同環(huán)節的用戶(hù)一般不能進(jìn)行對比
3.2
縱向對比
橫向是和其他對象比較,縱向則是和自己的歷史數據對比。
常見(jiàn)的縱向對比有同比和環(huán)比,對比的周期根據實(shí)際情況可以按日、周、月、季、年等。

注:一個(gè)常用的多組對比柱狀圖
對比的時(shí)候,除了比較相對量,也要看絕對量,以合理地評估數據差異的大小。
e.g. 0.5%的波動(dòng)是大還是小,需要找參考點(diǎn),如果歷史波動(dòng)最高也就0.1%,那么這個(gè)波動(dòng)就很大。
e.g. 公眾號關(guān)注人數昨日環(huán)比增長(cháng)20%(看著(zhù)還不錯),實(shí)際上才增加4個(gè)人,截止前天也就20個(gè)人。
04
關(guān)聯(lián)
看數據指標不要只看一個(gè)“點(diǎn)”,還要看一條“線(xiàn)”上的前后連接的環(huán)節,進(jìn)而從“面”或“體”的角度去看整個(gè)大環(huán)境中都有哪些因素相互作用。
對現象的分析可以參考簡(jiǎn)單的調節模型:

其中:X是自變量,Y是因變量,M是調節變量。
尋找關(guān)聯(lián)關(guān)系時(shí),不僅僅要找出對Y有直接影響的X(一個(gè)或者多個(gè)),還要找出影響X對Y作用的調節因素M。
關(guān)聯(lián)也可以分為同時(shí)關(guān)聯(lián)和延時(shí)關(guān)聯(lián)兩類(lèi)。
4.1
同時(shí)關(guān)聯(lián)
即多個(gè)因素(X)同時(shí)發(fā)生作用一起促成了現象(Y)的發(fā)生。
e.g. 電商網(wǎng)站銷(xiāo)售的變化可能考慮的因素:
用戶(hù):用戶(hù)結構是否發(fā)生變化,是否有新的注冊渠道,新渠道導流進(jìn)來(lái)的用戶(hù)質(zhì)量如何;
商品:品類(lèi)結構是否有變化,e.g. 隨著(zhù)四季變化,服裝類(lèi)的種類(lèi)也會(huì )發(fā)生變化;
產(chǎn)品:多少用戶(hù)使用舊版本或者新版本,產(chǎn)品某個(gè)環(huán)節有沒(méi)有改版,產(chǎn)品的策略(商品推薦策略等)是否有變化;
運營(yíng):前期的線(xiàn)上或者線(xiàn)下預熱,商城的優(yōu)惠力度,優(yōu)惠涉及的人群等;
4.2
延時(shí)關(guān)聯(lián)
現象的產(chǎn)生可能存在延遲效應,要考慮當前現象(環(huán)節)的前置的“因”和后置的“果”。
e.g. 今天上線(xiàn)的營(yíng)銷(xiāo)方案可能在幾天甚至幾十天后才會(huì )有顯著(zhù)的效應,今天交易量上出現的波動(dòng)也可能是因為一段時(shí)間前產(chǎn)品或者運營(yíng)策略上有改動(dòng)。
05
層級
要有結構化、系統化的思維,對影響因素自上而下的拆解和自下而上的組合。

5.1
自上而下的拆解
可以理解為“分級鉆取”,如同金字塔結構一樣,先從總體看到二級分支,然后再看更細的分支。
e.g. 支付成功率的影響,可以對新老客、訂單來(lái)源、支付方式、銀行通道一層一層拆解,細化各個(gè)分支對整體變化的貢獻率;

e.g. 銷(xiāo)售額 = 下單人數*客單價(jià) (a)
從登錄到下單是層層轉化后的,所以
下單人數 = 訪(fǎng)客人數*瀏覽轉化率*購物車(chē)轉化率*支付轉化率 (b)
公式(b)代入公式(a),得到:
銷(xiāo)售額 = 訪(fǎng)客人數*瀏覽轉化率*購物車(chē)轉化率*支付轉化率*客單價(jià)
5.2
自下而上的組合
就是將個(gè)體組成群體,將小的指標組合成一個(gè)綜合指標。
e.g. 用戶(hù)的標簽分為基礎標簽和復合標簽,基礎標簽就是單個(gè)用戶(hù)屬性來(lái)定義的(例如性別、婚否等),復合標簽則是考慮多個(gè)基礎標簽的組合(例如,某個(gè)典型的用戶(hù)群體畫(huà)像是:女性+單身+白領(lǐng)+一線(xiàn)城市);
e.g. 規劃用戶(hù)標簽時(shí),先用頭腦風(fēng)暴想出一批指標,然后進(jìn)行歸類(lèi)、篩選、組合;
e.g. 風(fēng)控業(yè)務(wù)中累計壞賬計提的計算,是將不同的逾期資金規定不同的風(fēng)險計提比例,最后再把所有類(lèi)別的風(fēng)險計提資金匯總起來(lái),作為公司所有貸出款項的風(fēng)險計提資金,從而對公司貸款業(yè)務(wù)風(fēng)險進(jìn)行評估;
舉個(gè)形象的例子,自上而下好比國家財政撥款,從中央到省會(huì )再到各市縣區;自下而上則像是國家征稅,就是從各市縣區、各企業(yè)層層匯總,直到報送國庫。
06
優(yōu)化
分析的最終目標無(wú)非兩種:尋找解決方案,尋找更好的解決方案。第一步是保證數據的準確性和穩定性,第二步就是優(yōu)化,提高準確性、提高效率和效益。
優(yōu)化包含兩部分的內容:縮小當前和目標的差距,直到達成并超越目標;在成本或者預算固定的前提下,使收益最大化。
6.1
縮小當前和目標的差距
e.g. 全公司各部門(mén)各業(yè)務(wù)線(xiàn)的同事們都在追逐和超越KPI的路上;
e.g. 機器學(xué)習建模時(shí),嘗試多種方案,調試各種參數,使模型的精確度逐漸提高

6.2
成本固定,最大化收益

e.g. 對于信用貸款產(chǎn)品而言,如果把“最安全”放在首位,那么極端的方式就是不給任何人發(fā)放貸款,這樣就不會(huì )出現壞賬了。正確的信貸模型思維是將壞賬控制在業(yè)務(wù)上可以接受的范圍內,并使利息覆蓋壞賬,進(jìn)而最大化收益。
任何商業(yè)模式都是追逐利益的,首要目標是收益最大化,參考如下公式:
利潤 = 收入 - 投入成本 - 風(fēng)險損失
優(yōu)化的過(guò)程就是尋找利潤最大化的過(guò)程。
小結:
以上總結了常見(jiàn)的6種數據分析思路,涉及具體的業(yè)務(wù)場(chǎng)景還要結合業(yè)務(wù)特點(diǎn)適當變通。精通方法,深入業(yè)務(wù),勤于實(shí)踐,多加總結,最終就能踏上描述-->解釋-->預測-->控制,步步高升的數據分析師精進(jìn)之路。


聯(lián)系客服