<b>摘要</b>: 機器學習 機器學習(Machine Learning, ML)是一門多領域交叉學科,涉及概率論、統計學、逼近論、凸分析、算法復雜度理論等多門學科。專門研究計算機怎樣模擬或實現人類的學習行為,以獲取新的知識或技能,重新組織已有的知識結構使之不斷改善自身的性能。
機器學習
<b>機器學習</b>(Machine Learning, ML)是一門多領域交叉學科,涉及概率論、統計學、逼近論、凸分析、算法復雜度理論等多門學科。專門研究計算機怎樣模擬或實現人類的學習行為,以獲取新的知識或技能,重新組織已有的知識結構使之不斷改善自身的性能。
<b>嚴格的定義</b>:機器學習是一門研究機器獲取新知識和新技能,并識別現有知識的學問。這里所說的“機器”,指的就是計算機,電子計算機,中子計算機、光子計算機或神經計算機等等。
機器學習概論
由上圖所示:機器學習分為四大塊: <b>classification (分類), clustering (聚類), regression (回歸), dimensionality reduction (降維)。</b>
<b>classification & regression</b>
舉一個簡單的例子:
給定一個樣本特征 x, 我們希望預測其對應的屬性值 y, 如果 y 是離散的, 那么這就是一個分類問題,反之,如果 y 是連續的實數, 這就是一個回歸問題。
如果給定一組樣本特征 S={x∈RD}, 我們沒有對應的 y, 而是想發掘這組樣本在 D 維空間的分布, 比如分析哪些樣本靠的更近,哪些樣本之間離得很遠, 這就是屬于聚類問題。
如果我們想用維數更低的子空間來表示原來高維的特征空間, 那么這就是降維問題。
無論是分類還是回歸,都是想建立一個預測模型 H,給定一個輸入 x, 可以得到一個輸出 y:
y=H(x)
不同的只是在分類問題中, y 是離散的; 而在回歸問題中 y 是連續的。所以總得來說,兩種問題的學習算法都很類似。所以在這個圖譜上,我們看到在分類問題中用到的學習算法,在回歸問題中也能使用。分類問題最常用的學習算法包括 SVM (支持向量機) , SGD (隨機梯度下降算法), Bayes (貝葉斯估計), Ensemble, KNN 等。而回歸問題也能使用 SVR, SGD, Ensemble 等算法,以及其它線性回歸算法。
<b>clustering</b>
聚類也是分析樣本的屬性, 有點類似classification, 不同的就是classification 在預測之前是知道 y 的范圍, 或者說知道到底有幾個類別, 而聚類是不知道屬性的范圍的。所以 classification 也常常被稱為 supervised learning, 而clustering就被稱為 unsupervised learning。
clustering 事先不知道樣本的屬性范圍,只能憑借樣本在特征空間的分布來分析樣本的屬性。這種問題一般更復雜。而常用的算法包括 k-means (K-均值), GMM (高斯混合模型) 等。
<b>dimensionality reduction</b>
降維是機器學習另一個重要的領域, 降維有很多重要的應用, 特征的維數過高, 會增加訓練的負擔與存儲空間, 降維就是希望去除特征的冗余, 用更加少的維數來表示特征. 降維算法最基礎的就是PCA了, 后面的很多算法都是以PCA為基礎演化而來。