判別模型與生成模型
- 生成模型
學(xué)習(xí)聯(lián)合概率分布,求出條件概率分布P(Y|X)=P(X,Y)/P(X)。- 樸素貝葉斯法、馬爾科夫模型、高斯混合模型
- 收斂速度更快,能學(xué)習(xí)隱變量
- 判別模型
由數(shù)據(jù)直接學(xué)習(xí)決策函數(shù)f(X)或者條件概率分布P(Y|X)作為預(yù)測的模型。- 邏輯回歸, KNN, SVM
- 準確率高
各模型總結(jié)
- 邏輯回歸
- 優(yōu)點
- 實現(xiàn)簡單,應(yīng)用成熟,基本所有的機器學(xué)習(xí)庫都有
- 支持增量學(xué)習(xí),可以在線更新
- 可以輸出概率,結(jié)果易于解釋
- 缺點
- 全局最優(yōu)、容易欠擬合
- 當(dāng)特征空間太大時表現(xiàn)較弱
- 難以捕捉非線性特征
- 特征離散化
- 優(yōu)化方法
- 細分場景解決,用決策樹決定初始場景
- 特征篩選、降維,加入L1、L2正則項
- 特征離散化,特征相乘
- 普通線性模型無法描述特征間的相關(guān)性,將特征相乘(多項式線性模型)可以引入變量相關(guān)性(e.g 女性與化妝品類,男性與球類裝備)
- 優(yōu)點
多項式模型.png
- 數(shù)據(jù)稀疏情況下很難求解wij,使用FM模型(類比推薦)
-
樸素貝葉斯
- 優(yōu)點
- 算法簡單,收斂速度快
- 支持增量學(xué)習(xí)
- 在小數(shù)據(jù)集上表現(xiàn)較好,多用于文本分類
- 缺點
- 條件獨立假設(shè),分類準確性較低
- 優(yōu)點
-
KNN
- 優(yōu)點
- 思想簡單,可用以分類也可回歸
- 可以用以非線性分類
- 缺點
- 計算、存儲量大
- 優(yōu)點
-
決策樹
- 優(yōu)點
- 計算簡單,易于理解,容易解釋
- 對數(shù)據(jù)預(yù)處理要求不高
- 可以進行變量選擇
- 缺點
- 講究局部最優(yōu),容易過擬合
- 容易忽略數(shù)據(jù)之間的相關(guān)性
- 優(yōu)點
-
SVM
- 優(yōu)點
- 可以解決高緯數(shù)據(jù)集,適合文本/圖像分類
- 能處理非線性可分數(shù)據(jù)
- 高泛化能力
- 缺點
- 計算量大
- 需要調(diào)參數(shù)、尋找核函數(shù)
- 對缺失數(shù)據(jù)敏感
- 優(yōu)點
隨機森林
-
Adaboost
- 優(yōu)點
- 精度高,不容易過擬合
- 不用做特征選擇
- 缺點
- 對異常點敏感
- 優(yōu)點
-
K-means
- 優(yōu)點
- 原理簡單,容易實現(xiàn)
- 當(dāng)簇之間區(qū)分效果明顯時聚類效果較好
- 缺點
- 對初始質(zhì)心及K的選擇較敏感
- 對異常點敏感
- 優(yōu)點