
特征選擇的好處 便于理解和可視化數據,降低計算及存儲壓力,對抗維數災難提高準確率,增加模型泛化能力; 總結一 三大主流方法:過濾式,包裹式,嵌入...
聊聊機器學習中的損失函數 機器學習中的損失函數 平方損失(線性回歸) 對數損失(交叉熵損失 softmax, logstic) 最大熵原理(引出...
簡書:決策樹會有哪些特性?知乎:決策樹是如何處理不完整數據的? 1. 連續值如何劃分? C4.5:Information Gain (Ratio...
如何解決類別不平衡問題? 對大類欠采樣,或者對小類過采樣; 設置不同的學習率,大類權值小,小類權值大; 使用一些對樣本分布不敏感的評價指標,F1...
博客:http://liuchengxu.org/blog-cn/posts/bias-variance/ 誤差一般包含偏差,方差和噪聲 偏差:...
過擬合的原因 數據方面,比如數據不規范,數據量少,還有可能是數據穿越(統計特征用到了未來的信息或者標簽信息); 算法方面,模型過于復雜; 防止過...
最大似然估計 似然函數:這個函數反應的是在不同的參數θ取值下,取得當前這個樣本集的可能性,因此稱為參數θ相對于樣本集X的似然函數。 最大似然估計...
知乎問題:https://www.zhihu.com/question/31989952 為什么LR需要歸一化或者取對數? 歸一化:可以提高收斂...
博客:http://blog.csdn.net/zouxy09/article/details/24971995博客:http://blog.c...