本文主要介紹精準營(yíng)銷(xiāo)的數據理解和數據準備的內容,對應與CRISP-DM方法論中的數據理解和數據準備的部分。如下圖所示:經(jīng)過(guò)前面對于分析目標的商業(yè)理解,我們已經(jīng)掌握了針對當前目標問(wèn)題的相關(guān)參考解決方式,即前面通過(guò)實(shí)地調研、文獻查閱和相關(guān)案例分析總結出針對當前目標問(wèn)題的解決方案,但整理出框架后,還需要結合我們的具體問(wèn)題與當前已有的實(shí)際數據進(jìn)行分析,尤其是要深入理解當前的實(shí)際數據,結合已有的分析框架構造出理論上的取數邏輯,這是數據理解階段的主要任務(wù),也是銜接商業(yè)理解與數據準備階段的重要中間環(huán)節,該階段的產(chǎn)出物可以進(jìn)一步與商業(yè)理解形成照應,通過(guò)相關(guān)的案例分析和當前已有的實(shí)際數據列出后期數據的構造方法。數據理解階段就是要根據商業(yè)理解階段產(chǎn)出的用戶(hù)畫(huà)像的結果來(lái)理解當前的實(shí)際數據,因為當前實(shí)際已有的數據并非可以完全匹配相應的用戶(hù)畫(huà)像,比如,按照用戶(hù)畫(huà)像、結合后續的建模分析,我們需要拿到用戶(hù)的年齡信息,而實(shí)際數據表中并沒(méi)有直接統計出該項信息,故可能需要客戶(hù)信息表中記錄的客戶(hù)的出生信息與給定的計算時(shí)間節點(diǎn)來(lái)計算用戶(hù)的年齡,同樣的,定義好的其他解釋變量、甚至被解釋變量可能都需要進(jìn)行具體的計算。那么,如何計算呢?能否得到我們想要的結果呢?都需要進(jìn)行詳細、準確的用戶(hù)畫(huà)像(即商業(yè)理解)和取數邏輯梳理,當發(fā)現有些解釋變量無(wú)法通過(guò)現有的數據計算得到時(shí),就需要進(jìn)一步收集相關(guān)數據或者重新定義用戶(hù)畫(huà)像,數據盤(pán)點(diǎn)可以使用以下幾種方法: - 企業(yè)架構法:企業(yè)組織結構是進(jìn)行企業(yè)流程運轉、部門(mén)設置及職能規劃等最基本的結構依據,企業(yè)的組織架構就是一種決策權的劃分體系以及各部門(mén)的分工協(xié)作體系。組織架構需要根據企業(yè)總目標,把企業(yè)管理要素配置在一定的方位上,確定其活動(dòng)條件,規定其活動(dòng)范圍,形成相對穩定的科學(xué)的管理體系,在組織結構上,把既有按職能劃分的垂直領(lǐng)導系統,又有按產(chǎn)品(項目)劃分的橫向領(lǐng)導關(guān)系的結構,稱(chēng)為矩陣組織結構。按照企業(yè)架構來(lái)了解當前已有的實(shí)際數據情況,有條且全面。- 用戶(hù)旅程法:用戶(hù)旅程(Customer Journey)是從用戶(hù)視角出發(fā),按照業(yè)務(wù)發(fā)展的過(guò)程,以時(shí)間線(xiàn)形式表達和用戶(hù)的接觸點(diǎn)(觸點(diǎn)),并分析每個(gè)觸點(diǎn)發(fā)生的事情,用戶(hù)的感受,獲益、成本等信息。適用于體驗優(yōu)化、產(chǎn)品設計等。對于我們當前的需求來(lái)講,就是從用戶(hù)旅程的角度來(lái)認識各個(gè)階段的實(shí)際數據的情況,通過(guò)對實(shí)際數據的認識來(lái)梳理當前用戶(hù)畫(huà)像下的取數邏輯。 - 實(shí)體發(fā)散法:實(shí)體發(fā)散法就是通過(guò)一個(gè)實(shí)體的不斷發(fā)散來(lái)找到對應的多個(gè)實(shí)體,比如由教育部可以延伸出教育廳、教育廳可以延伸出學(xué)校、學(xué)??梢匝由斐霭嗉?、班級可以延伸出教師、教師可以延伸出學(xué)生,而以上不同的實(shí)體下又會(huì )對應得到不同的數據,教育部下可以幫助我們收集到的是關(guān)于教學(xué)標準的數據;教育廳下可以收集到關(guān)于教材設計和章節設計的相關(guān)數據;學(xué)校下面可以收集到有關(guān)教學(xué)的基本信息;班級下面可以收集到具體的的成績(jì)數據;對于教師來(lái)講,可以收集到備課的相關(guān)數據;而最后的實(shí)體學(xué)生,則可以收集到作業(yè)的相關(guān)數據等等。以上就是根據實(shí)體發(fā)散法來(lái)認識數據的過(guò)程,通過(guò)不斷的實(shí)體發(fā)散來(lái)全面認識相關(guān)數據。- 數據分析法:數據分析法是按照數據分析的思路將分析過(guò)程進(jìn)行逐步拆解,拆解完畢后在各個(gè)過(guò)程中進(jìn)行數據的收集。數據理解階段開(kāi)始于數據的收集工作。接下來(lái)就是熟悉數據的工作,具體如:檢測數據的量,對數據有初步的理解,探測數據中比較有趣的數據子集,進(jìn)而形成對潛在信息的假設。收集原始數據,對數據進(jìn)行裝載,描繪數據,并且探索數據特征,進(jìn)行簡(jiǎn)單的特征統計,檢驗數據的質(zhì)量,包括數據的完整性和正確性,缺失值的填補等。如果有需要解決的問(wèn)題,則項目可以繼續;如果沒(méi)有,那么,數據科學(xué)家將不得不“越俎代庖”來(lái)確定待解決的問(wèn)題。在項目的這個(gè)階段,數據科學(xué)家將花費大量時(shí)間與業(yè)務(wù)部門(mén)(例如,銷(xiāo)售、營(yíng)銷(xiāo)、運營(yíng)部門(mén))的同事面談以了解業(yè)務(wù)問(wèn)題,并與數據庫管理員溝通以了解有哪些數據可用。一旦數據科學(xué)家明確定義了業(yè)務(wù)問(wèn)題并且為適當的數據可用而感到高興,然后他就會(huì )進(jìn)入CRISP-DM的下一階段:數據準備。數據準備階段的重點(diǎn)是創(chuàng )建可用于數據分析的數據集。 通常,創(chuàng )建此數據集涉及集成來(lái)自多個(gè)數據庫的數據源,當組織機構具有數據倉庫時(shí),這種數據集成相對簡(jiǎn)單。創(chuàng )建數據集后,需要檢查數據質(zhì)量并修復有問(wèn)題的數據。典型的數據質(zhì)量問(wèn)題包括異常值和缺失值。檢查數據質(zhì)量非常重要,因為數據中的錯誤會(huì )嚴重影響數據分析算法的性能。比如,以精準營(yíng)銷(xiāo)為例,當前已有的數據說(shuō)明如下:一個(gè)人可以有多個(gè)賬戶(hù),一個(gè)account賬戶(hù)號可以對應有多個(gè)client顧客號,即多個(gè)人可以共管一個(gè)賬戶(hù),賬戶(hù)與客戶(hù)號的對應關(guān)系,在disp中進(jìn)行列示?!發(fā)oan” 和 “credit card” 為銀行提供給客戶(hù)的服務(wù);一個(gè)賬戶(hù)可以多張信用卡;一個(gè)賬戶(hù)只能一筆貸款。賬戶(hù)表(Accounts),每條記錄描述了一個(gè)賬戶(hù)的靜態(tài)信息,條數為4500客戶(hù)信息表(Clients),每條記錄描述了一個(gè)客戶(hù)的特征信息,條數為5369 主鍵是指該表中唯一確定每條記錄的一個(gè)變量或多個(gè)變量的組合,它具有無(wú)確實(shí)、無(wú)重復的特征。經(jīng)常用于做數據清洗和數據行向合并。權限分配表(Disp),每條記錄描述了客戶(hù)和賬戶(hù)之間的關(guān)系,以及客戶(hù)操作賬戶(hù)的權限,條數為 5369支付命令表 (Orders) ,每條記錄代表描述了一個(gè)支付命令,條數為6471交易表 (Trans),每條記錄代表每個(gè)賬戶(hù)上的一條交易,條數為1056320貸款表(Loans),每條記錄代表某個(gè)賬戶(hù)的上的一條貸款信息,條數為682信用卡(Cards),每條記錄描述了一個(gè)賬戶(hù)上的信用卡信息,條數為892人口地區統計表 (District),每條記錄描述了一個(gè)地區的人口統計學(xué)信息,條數為77 以上數據的實(shí)體-關(guān)系圖(ER圖)如下:數據理解階段的主要任務(wù)就是根據以上的數據表以及數據表之間的聯(lián)系來(lái)構造出取數邏輯,即如何得到進(jìn)行分析所需要的數據,屬于一套理論方法,并沒(méi)有進(jìn)行實(shí)際的操作,具體來(lái)講,要根據需要描述需求中的數據范圍,包括被解釋變量的定義、篩選條件的選取、解釋變量的維度等。根據參考分析方案與當前數據,定義出對應的解釋變量:也就是說(shuō),要根據以上對于各解釋變量和被解釋變量的定義來(lái)進(jìn)行后續的數據準備與建模分析,得到建模分析所需的解釋變量與被解釋變量,就是數據理解階段的核心任務(wù)。在構造出理論上的取數邏輯后,就需要根據實(shí)際數據、按照取數邏輯來(lái)計算得到所需的數據了,這也是數據準備階段的主要任務(wù),用到的工具為一些數據庫的操作工具,通過(guò)各表之間的連接計算出已經(jīng)定義好的被解釋變量和解釋變量,結果如下: 數據準備階段涵蓋了從原始粗糙數據中構建最終數據集(將作為建模工具的分析對象)的全部工作。數據準備工作有可能被實(shí)施多次,而且其實(shí)施順序并不是預先規定好的。這一階段的任務(wù)主要包括:制表,記錄,數據變量的選擇和轉換,以及為適應建模工具而進(jìn)行的數據清理等等。根據與挖掘目標的相關(guān)性,數據質(zhì)量以及技術(shù)限制,選擇作為分析使用的數據,并進(jìn)一步對數據進(jìn)行清理轉換,構造衍生變量,整合數據,并根據工具的要求,格式化數據。以上就是數據理解與數據準備階段的內容,總結起來(lái)包括兩方面的內容,一方面是基于當前目標下的用戶(hù)畫(huà)像的結果并結合實(shí)際已有數據梳理出取數邏輯,另一方面就是根據梳理出的取數邏輯、運用相應的工具得到實(shí)際所需的數據,用來(lái)支持后續的建模與分析,但是數據理解階段并非獨立的內容,該階段需要不斷與商業(yè)理解階段進(jìn)行匹配分析,對商業(yè)理解階段與數據理解階段的準確把握是能夠進(jìn)行精準建模、得到具有指導性結論的重要前提。 了解更多數據分析知識、與更多優(yōu)秀的人一起進(jìn)群交流請掃碼
本站僅提供存儲服務(wù),所有內容均由用戶(hù)發(fā)布,如發(fā)現有害或侵權內容,請
點(diǎn)擊舉報。