過擬合的原因
- 數據方面,比如數據不規范,數據量少,還有可能是數據穿越(統計特征用到了未來的信息或者標簽信息);
- 算法方面,模型過于復雜;
防止過擬合方法
- 進行數據規范化,處理缺失值,減少特征,增加數據量,也可以添加噪聲數據;
- 模型的話,可以加正則化,交叉驗證,模型融合。也可以設置一個參數,使得模型變得簡單。
- 線性回歸,logistic回歸:減少特征,設置正則項;
- SVM:引入松弛變量,調節懲罰因子C(越大越容易過擬合);
- xgboost(GBDT)的 early stoping(GBDT無),迭代次數,樹的深度,增大學習率,限制葉子節點最少樣本數,限制葉子節點數等;