#一、相關理論
4P指的是Product(產品)、Price(價格)、Place(渠道)和Promotion(促銷)。4P理論的核心是Product(產品)。因此,以4P理論為核心營銷思想的企業營銷戰略又可以簡稱為“以產品為中心”的營銷戰略。
4C包括Consumer(消費者)、Cost(成本)、Convenience(方便性)和Communication(溝通交流)。4C理論的核心是Consumer消費者。因此,以4C理論為核心營銷思想的企業營銷戰略又可以簡稱為“以消費者為中心”的營銷戰略。
在3P3C理論中,數據化運營6要素的內容如下。
? Probability(概率):營銷、運營活動以概率為核心,追求精細化和精準率。
? Product(產品):注重產品功能,強調產品賣點。
? Prospects(消費者,目標用戶)。
? Creative(創意,包括文案、活動等)。
? Channel(渠道)。
? Cost/Price(成本/價格)。
而在這其中,以數據分析挖掘所支撐的目標響應概率(Probability)是核心,在此基礎上將會圍繞產品功能優化、目標用戶細分、活動(文案)創意、渠道優化、成本的調整等重要環節和要素,共同促使數據化運營持續完善,直至成功。
數據化運營”的定義:
以企業級海量數據的存儲和分析挖掘應用為核心支持的,企業全員參與的,以精準、細分和精細化為特點的企業運營制度和戰略
產品開發人員所提出的新概念才不是拍腦袋拍出來的,而是來自于用戶反饋數據的提煉;產品運營人員也不再僅僅是每天被動地抄報運營的KPI指標,通過數據意識的培養,他們將在運營前的準備,運營中的把握,運營后的反饋、修正、提升上有充分的預見性和掌控力;客戶服務部門不僅僅滿足于為客戶提供滿意的服務,他們學會了從服務中有意識地發現有代表性的、有新概念價值的客戶新需求;銷售部門則不再只是具有吃苦耐勞的精神,他們可通過數據分析挖掘模型的實施來實現有的放矢、精準營銷的銷售效益最大化。而企業的數據挖掘團隊也不再僅僅局限于單純的數據挖掘技術工作及項目工作,而是肩負在企業全員中推廣普及數據意識、數據運用技巧的責任,這種責任對于企業而言比單純的一兩個數據挖掘項目更有價值,更能體現一個數據挖掘團隊或者一個數據挖掘職業人的水準、眼界以及胸懷,俗話說“只有能發動人民戰爭,才是真正的英雄”,所以只有讓企業全員都參與并支持你的數據挖掘分析工作,才能夠真正有效地挖掘企業的數據資源。現代企業的領導者,應該有這種遠見和智慧,明白全員的數據挖掘才是企業最有價值的數據挖掘,全員的數據化運營才是現代企業的競爭新核心。
2012年7月10日,阿里巴巴集團宣布設立“首席數據官”崗位,陸兆禧將主要負責全面推進阿里巴巴集團成為“數據分享平臺”的戰略,其主要職責是規劃和實施未來數據戰略,推進支持集團各事業群的數據業務發展。“將阿里巴巴集團變成一家真正意義上的數據公司”
數據化運營更是互聯網企業得天獨厚的“神器”。互聯網行業與生俱來的特點就是大數據,而信息時代最大的財富也正是海量的大數據。2010年5月14日阿里巴巴集團在深圳舉行的2010年全球股東大會上,馬云進一步指出“21世紀核心的競爭就是數據的競爭”,“誰擁有數據,誰就擁有未來”。
數據化運營的幾個前提條件:
1.存儲海量數據
拋棄大型機+關系型數據庫的模型,采用分布式的服務器集群+分布式存儲的海量存儲器,無論是從硬件成本、軟件成本還是從硬件升級、日常維護上來講,都是一次飛躍。未來的數據倉庫將是以流計算為主的實時數據倉庫和分布式計算為主流的準實時數據倉庫。
2.有精細化運營的需求
3.數據分析和數據挖掘團隊
出色的數據分析師必須是多面手,他不僅要具備統計技能(能熟練使用統計技術和統計工具進行分析挖掘)、數據倉庫知識(比如熟悉主流數據庫基本技術,可以自助取數,可以有效與數據倉庫團隊溝通)、數據挖掘技能(熟練掌握主流數據挖掘技術和工具),更重要的是他還要具有針對具體業務的理解能力和快速學習能力,并且要善于與業務方溝通、交流。
正如阿里巴巴集團董事會主席兼CEO馬云在多個場合強調的那樣,“人才和數據是阿里巴巴集團最大的財富和最強大的核心競爭力”。
#二、數據預處理
機器學習項目流程包括明確問題、數據獲取、預處理與特征選擇、模型訓練與調優、模型診斷、模型融合/集成、上線運行
數據預處理包括缺失值,異常值,數據轉換,篩選變量,共線性問題
數據轉換包括生成衍生變量(今日-出生日,生成新字段年齡)、改善變量分布(一般對于區間型變量,取對數、開平方根、取倒數等)、分箱轉換(一般將區間型變量轉換成次序型變量,目的主要是降低變量的復雜性,提高自變量的預測能力)、數據的標準化
分箱轉換:
篩選變量包括相關性,R方,卡方檢驗,IV和WOE,逐步回歸,平均互信息、條件熵、后驗概率、邏輯回歸權重,降維(主成分分析和變量聚類)
IV和WOE
如何發現共線性
如何處理共線性
過擬合屬于模型診斷(確定模型調優的方向與思路),過擬合、欠擬合 判斷是模型診斷中至關重要的一步。常見的方法如交叉驗證,繪制學習曲線等。過擬合的基本調優思路是增加數據量,降低模型復雜度。欠擬合的基本調優思路是提高特征數量和質量,增加模型復雜度。
誤差分析也是機器學習至關重要的步驟。通過觀察誤差樣本,全面分析誤差產生誤差的原因:是參數的問題還是算法選擇的問題,是特征的問題還是數據本身的問題......
診斷后的模型需要進行調優,調優后的新模型需要重新進行診斷,這是一個反復迭代不斷逼近的過程,需要不斷地嘗試, 進而達到最優狀態。
模型在線上運行的效果直接決定模型的成敗。不單純包括其準確程度、誤差等情況,還包括其運行的速度(時間復雜度)、資源消耗程度(空間復雜度)、穩定性是否可接受。
#三、聚類在數據化運營中的實踐
1.常見的業務情景
2.算法分類
除了Kmeans和層次聚類,還有基于密度的DBSACN(可發現任意形狀的類)和基于網格的
3.注意點
一般使用Kmeans,對數據噪聲和異常點非常敏感,則應該采用隨機抽樣和適當刪除,另外因為針對區間型變量,需要數據標準化,確定變量少而精(利用主成分分析,相關性檢測等))
#四、分類/預測在數據化運營中的實踐
一般有4種常見的算法:神經網絡,決策樹,邏輯回歸,多元線性回歸
1.神經網絡
2.決策樹
3.邏輯回歸vs線性回歸
#五、用戶特征分析的典型分析思路
#六、運營效果分析的典型分析思路
#七、漏斗模型和路徑分析
#八、大膽假設,小心求證
#九、條條大路通羅馬