機器學習（周志華）_讀書筆記

機器學習? 經驗數據

數據中產生模型model 的算法? 學習算法? learning algorithm

數據集 data set 示例instance? 樣本 sample

屬性attribute? 特征feature 屬性值 attribute value

屬性空間attribute space? 樣本空間 sample space

特征向量? feature vector

維數 dimensionality

學習learning? 訓練 training

訓練數據 training data 訓練樣本 training sample

訓練集 training set

假設 hypothesis

真實真相 ground-truth

學習器learner

預測 prediction

label 標記 example 樣例

標記空間 label space 輸出空間

classification 分類

回歸 regression

binary classification 二分類

positive class 正類? negative class 反類

多分類 multi-class classification

測試 testing? 測試樣本 testing sample

clustering 聚類 cluster 簇

監督學習 supervised learning? 分類和回歸

無監督學習 unsupervised learning? 聚類

泛化 generalization 樣本空間測試空間

分布 distribution

獨立同分布 independent and identically distributed i.i.d.

假設空間：

歸納 induction? ? 泛化 generation? inductive learning

演繹 deduction? 特化 specilization

歸納學習 = 樣例中學習 + 數據中學習概念 concept? 概念學習

假設空間搜索 hypothesis space? fit匹配假設

學習過程是基于優先樣本訓練集進行的? 存在一個假設集合? 版本空間 version space

歸納偏好機器學習算法在學習過程中對某種類型假設的偏好歸納偏好

歸納偏好學習算法自身在一個可能很龐大的假設空間中對假設進行選擇的啟發式或價值觀

奧卡姆剃刀? 若有多個假設與觀察一致選擇最簡單的那個

沒有免費的午餐 NoFreeLaunch Theorem

NFL定理：學習算法的期望值都會相同。? 問題均勻分布

前提：所有問題出現的機會相同或所有問題同等重要

脫離具體問題空談什么學習算法更好? 毫無意義。

任何一個算法都是有適用范圍的。

機器學習的發展史：

artificial intelligence -> 邏輯理論家：邏輯推理就是智能

（通用問題求解）? -> 知識? 知識就是力量? 知識工程專家系統 ->

基于神經網絡的連接主義 connectionism

基于邏輯表示的符號主義 symbolism學習

以決策理論為基礎的學習技術和強化學習技術

->? 機器學習劃分為

從樣例中學習在問題求解和規劃中學習

通過觀察和發現學習? 從指令中學習

機械學習? 示教學習類比學習? 和歸納學習

-> 樣例中學習符號主義學習

主要有決策樹和基于邏輯的學習（基于歸納邏輯程序設計 Inductive Logic Programming ILP）

基于神經網絡的連接主義學習? BP算法? 連接主義最大的局限是其試錯性

統計學習? statistical? learning

支持向量機? Support Vector Machine? (文本分類)

核方法 kernel method

支持向量 VC維結構風險最小化原則

深度學習多層的神經網絡

過擬合? 欠擬合

理論 + 實驗? = 理論 + 實驗 + 計算? = 計算科學

計算目的數據分析素具科學核心是通過分析數據獲取價值

機器學習? 云計算眾包 crowdsourcing

統計學主要是通過機器學習對數據挖掘發揮影響機器學習領域和數據庫領域則是數據挖掘的兩大支撐

transfer learning? 遷移學習? 類比學習 learning by analogy

國際機器學習會議ICML

國際神經信息處理系統會議 NIPS

國際學習理論會議 COLT

歐洲機器學習會議 ECML

亞洲機器學習會議 ACML

Journal of Machine Learning Research? ? Machine Learning

人工智能：IJCAI AAAI? Artificial Intelligence Journal Of Artificial Intelligence Research

數據挖掘：KDD ICDM Data Mining and Knowledge Discovery

ACM Transactions on Knowledge Discovery from Data

計算視覺和模式識別：CVPR IEEE Transaction on Pattern Analysis and Machine Intelligence

神經網絡：Neural Computation IEEE Transaction on Neural Networks and Learning Systems

中國機器學習大會 CCML? 機器學習及其應用研討會? MLA

模型評估與選擇：

錯誤率? error rate 精度 accuracy

誤差 error

訓練誤差 training error? 經驗誤差 empirical error

泛化誤差 generalization error

過擬合 overfitting? 訓練樣本自身的一些特點當做所有潛在樣本都會具有的一般性質泛化能力下降

欠擬合 underfitting

過擬合學習能力過于強大訓練樣本的不太一般的特性也包含在內

欠擬合學習能力低下造成的? 欠擬合解決方法：決策樹擴展分支神經網絡中增加訓練輪數

過擬合：無法徹底避免緩解或者減小其風險

機器學習面臨的是NP難和更難? 有效的算法必須在多項式時間內解決

模型選擇? model selection

測試集 testing set? 測試誤差 testing error

作為泛化誤差的近化

測試樣本也是從樣本真實分布中獨立同分布采樣而得

測試集盡可能與訓練集互斥

留出法? hold-out? 數據集劃分為兩個互斥的集合一個是訓練集s 測試集t

測試集訓練集的劃分要保持數據分布的一致性

采樣sampling 中的分層采樣 stratified sampling

若干次隨機劃分重復進行實驗評估后取平均值作為留出法的評估結果

三分之二至? 五分之四樣本用于訓練? 剩余樣本用于測試

交叉驗證法 cross validation

將數據集D劃分為k個大小相似的互斥子集每個子集盡量保持數據分布的一致性

從D中通過分層采樣得到? k-1個子集并集作為訓練集? 余下的子集作為測試集

k組訓練/測試集? k次訓練和測試

交叉驗證評估結果穩定性和保真性很大程度上取決于k

k折交叉驗證 k-fold cross validation? k通常取10

為減少因樣本劃分不同而引起的差別 k折交叉驗證通常要隨機使用不同的劃分p次

p次k折交叉驗證結果的均值? 10次10折交叉驗證

留一法? Leave-One-Out LOO

不受隨機樣本劃分方式的影響因為m個樣本只有唯一的方式劃分為m個子集

每個子集包含一個樣本過擬合? 也會導致模型計算開銷過大

自助法：bootstrapping

自助采樣法 bootstrap sampling

自助法在數據集較小難以有效劃分訓練測試集時很有用

自助法從初始數據集中產生多個不同的訓練集

調參與最終模型

參數 parameter? 參數配置不同? 學得模型性能不同

選擇學習算法? 算法參數進行設定參數調節? parameter tuning

對每個參數選定一個范圍和變化步長

驗證集 validation set 模型評估和選擇中用于評估測試的數據集

性能度量 performance measure

回歸任務：均方誤差 mean squared error

分類任務：

錯誤率和精度? 二分類和多分類

錯誤率：分類錯誤的樣本數占樣本總數的比例

精度：分類正確的樣本數占樣本總數的比例

查準率：precision TP/(TP + FP)

查全率：recall? ? TP/(TP+FN)

預測結果為正例? 預測結果為反例

真實情況正例? TP真正例? ? ? ? ? FN假反例

真實情況反例? FP假正例? ? ? ? ? TN真反例

查準率和查全率比較矛盾? 查準率高查全率偏低

查全率高查準率偏低

查準率和查全率 p-r 曲線圖

F1值 = （2*p*R） / (P + R)

ROC 曲線

縱軸是真正例率 True Positive Rate TPR

橫軸是假正例率 False Positive Rate FPR

一個學習器的ROC曲線被另一個學習器的曲線完全包住后者性能優于前者

交叉的話 AUC Area Under ROC Curve? 比較ROC曲線下的面積

代價敏感錯誤和代價曲線：

不同類型的錯誤所造成的后果不同，

為權衡不同類型錯誤所造成的不同損失為錯誤賦予非均等代價 unequal cost

以二分類任務為例，根據任務的領域知識設定一個代價矩陣 cost matrix

之前的性能度量中隱式的假設了均等代價直接計算錯誤次數未考慮不同錯誤造成的不同后果

在非均等代價下不再是簡單的最小化錯誤次數而是最小化總體代價 total cost

代價曲線 cost curve

比較檢驗：

比較泛化性能，測試集上的性能與測試集關系很大，機器學習算法本身具有一定的隨機性

統計假設檢驗 hypothesis test

假設檢驗? ? 根據測試錯誤率推出泛化的錯誤率的分布

對單個學習器泛化性能的假設進行檢驗

交叉驗證t檢驗：不同學習器的性能進行檢驗

McNemar檢驗一個數據集上比較兩個算法的性能

基于算法排序的Friedman檢驗

偏差-方差分解 bias-variance decomposition

解釋學習算法泛化性能的一種重要工具

偏差-方差分解對學習算法的期望泛化錯誤率進行拆解

算法在不同訓練集上學得的結果很可能不同

泛化誤差可分為偏差、方差與噪聲之和

偏差度量了學習算法的期望預測與真實結果的偏離程度刻畫了學習算法本身的擬合問題

方差度量了同樣大小訓練集變動所導致的學習性能的變化，刻畫了數據擾動所造成的影響

噪聲表達了當前任務上任何學習算法所能達到的期望泛化誤差的下界，刻畫了學習問題本身的難度。

偏差-方差分解說明泛化性能是由學習算法的性能、數據的充分性以及學習任務本身的難度所共同決定的。

給定學習任務，為了取得好的泛化性能，需使偏差較小，

即能夠充分擬合數據，并且使方差較小，即數據擾動產生的影響小。

偏差—方差窘境 bias-variance dilemma

訓練不足時欠擬合訓練數據的擾動不足以使學習器產生顯著變化

此時偏差主導了泛化錯誤率；

學習器的擬合能力增強，訓練數據擾動被學習器學習到方差主導了泛化錯誤率。

自助采樣法很有用，代價曲線 2006 發明，誤分類代價測試代價標記代價屬性代價

線性模型：? 形式簡單易于建模

Linear mode

線性回歸 Linear regression

均方誤差? 歐幾里得距離

基于均方誤差最小化進行模型求解的方法成為最小二乘法 least square method

線性回歸中最小二乘法視圖找到一條直線使所有樣本到直線上的歐氏距離之和最小

對數幾率回歸：Sigmoid函數

分類學習方法

線性判別分析 Linear Discriminant Analysis LDA

給定訓練樣例集設法將樣例投影到一條直線上，使得同類樣例的投影點盡可能近、

異類樣例的投影點盡可能遠；在對新樣本進行分類時，將其投影到同樣的這條直線上，

再根據投影點的位置確定新樣本的類別。

同類樣例投影點的協方差盡可能小，異類樣例的投影點盡可能遠離，類中心之間的舉例盡可能大

類內散度矩陣? within-class scatter matrix

類間散度矩陣? between-class scatter matrix

LDA 可從貝葉斯決策理論的角度闡釋當兩類數據同先驗、滿足高斯分布且協方差相等時，LDA可達到最優分類

多分類LDA可以將樣本投影到N-1維空間，N-1通常遠小于數據原有的屬性數，

通過投影減小樣本點的維數，且投影過程中使用了類別信息。

LDA常被視為經典的監督將維技術

多分類學習：

利用二分類學習器解決多分類問題

拆解法? 將多分類任務拆分為若干個二分類任務求解

先對問題進行拆分，然后為拆出的每個二分類任務訓練一個分類器

最經典的拆分策略有：一對一? OvO? 一對其余 OvR? 多對多 MvM

假定數據集合有N個類別，OvO將這N個類別兩兩配對，從而產生N(N-1)/2 個二分類任務，

例子：

OvO將為區分類別Ci 和 Cj 訓練一個分類器，該分類器把數據集中的Ci類樣例當做正例，

Cj類樣例作為反例，在測試階段，新樣本將同時提交給所有分類器，得到了N(N-1)/2

個分類結果，最終結果根據投票產生，即把被預測的最多的類別作為分類結果。

OvR 每次將一個類的樣例作為正例，所有其他類的樣例作為反例來訓練N個分類器，在測試時若僅有一個分類器預測為正類，

則對應的類別標記為最終分類結果，若有多個分類器預測為正類，

則通常考慮各分類器的預測置信度，選擇置信度大的類別標記作為分類結果。

OvR只需訓練N個分類器，OvO訓練N(N-1)/2 個分類器，OvO存儲開銷和測試時間開銷

通常比OvR更大，但在訓練時，OvR的每個分類器均使用全部訓練樣例，而OvO的每個分類器僅用到兩個類的樣例，

預測性能，取決于數據分布，多數情形下，兩者差不多。

MvM 每次將若干類作為正類，其他類作為反類，

糾錯輸出碼 Error Correcting Output Codes ECOC

編碼：對N個類別做M次劃分，每次劃分將一部分類別劃分為正類，

一部分劃分為反類，從而形成一個二分類訓練集；一共產生多個M個訓練集

，可訓練出M個分類器。

解碼：M個分類器分別對測試樣本進行預測，這些預測標記組成一個編碼，

將這個預測編碼與每個類別各自的編碼進行比較，

返回其中距離最小的類別作為最終預測結果。

類別不平衡問題

類別不平衡class-imbalance 是指分類任務中

不同類別的訓練樣例數目差別很大的情況，

通常在預測分類時，我們會得到一個預測值y，將這個值與一個閾值進行比較，

通常是0.5，大于0.5稱為正例，否則為反例，y實際上表達了正例的可能性，

幾率y/(1-y) 則反映了正例可能性和反例可能性之間的比值，閾值設置為0.5則默認

正反例之間的可能性相同，分類器決策規則為： y/(1-y) 》 1 預測為正例

訓練集中正反例數目不同時，m+表示正例數目? m-? 表示反例數目，則觀測幾率是

m+ / m-,? 通常假設：訓練集是真實樣本總體的無偏采樣，因此觀測幾率就是代表了

真實幾率。

于是只要分類器預測幾率高于觀測幾率就應判定為正例，

y/(1-y) > m+/m-? 預測為正例

yy / (1-yy) = y/(1-y) * (m-/m+)

類別不平衡的一個基本策略 -- 再縮放

再縮放思路簡單，但是實際操作很難：訓練集是真實樣本總體的無偏采樣

直接對訓練集里的反類樣例進行

欠采樣 undersampling：去除一些反例使得正反例數目接近然后再進行學習

對訓練集里正類樣例進行過采樣? oversampling? 增加一些正使得正反例數目接近，

然后再進行學習

直接基于原始訓練集進行學習，用訓練好的分類器進行預測時，將再縮放公式

嵌入到決策過程中，成為"閾值移動" threshold-moving

過采樣法不能簡單的對初始正例樣本進行重復采樣，否則會招致嚴重的過擬合，

過采樣法代表性算法是SMOTE 是通過對訓練集里的正例進行插值來產生額外的正例；

另一方面，欠采樣法不能隨機丟棄反例，可能會丟失一些重要信息。

欠采樣法的代表性算法EasyEnsemble 利用集成學習機制，將反例劃分為若干個集合供不同的學習器使用。

這樣對于每個學習器來看都是欠采樣，但在全局來看卻不會丟失重要信息。

再縮放，也是代價敏感學習 cost-sensitive learning

m-/m+? 用 cost-/cost+? 代替即可，cost+ 是將正例誤分為反例的代價

cost- 將反例誤分為正例的代價

稀疏表示? sparse representation

多分類學習雖然有多個類別但是每個樣本僅屬于一個類別

一個樣本同時預測出多個類別標記多標記學習 multi-lable learning

決策樹： decision tree

從給定訓練數據集學得一個模型用以對新示例進行分類

決策樹基于樹結構進行決策人類在面臨決策問題時一種很自然的處理機制

一顆決策樹包含一個根節點若干個內部結點和若干個葉節點葉節點對應于決策結果，

其他每個結點則對應于一個屬性測試

每個結點包含的樣本集合根據屬性測試的結果被劃分到子結點中

根節點包含樣本全集從根節點到每個葉結點的路徑對應了一個判定測試序列

決策樹學習為了產生一顆泛化能力強? 處理未見示例能力強的決策樹

基本流程遵循簡單且直觀的分而治之 divide-and-conquer

決策樹的生成是一個遞歸過程，決策樹基本算法中，三種情形導致遞歸返回，

當前節點包含的樣本全屬于一個類別，無需劃分

當前屬性集為空，或是所有樣本在所有屬性上取值相同，無法劃分

-- 當前結點標記為葉子結點，其類別設置為該結點所含樣本最多的類別

-- 利用當前結點的后驗分布

當前節點包含的樣本集合為空不能劃分

-- 當前結點標記為葉子結點其類別設定為其父節點所含樣本最多的類別

-- 父節點的樣本分布作為當前結點的先驗分布

決策樹的學習關鍵是如何選擇最優劃分屬性，

一般而言，隨著劃分過程不斷進行，決策樹的分支結點所包含的樣本盡可能屬于同一類別，

即結點的“純度” purity? 越來越高

信息增益

信息熵 information entropy 度量樣本集合度常用的指標

信息熵越小集合純度越高

樣本數越多的分支結點影響越大，計算屬性a對樣本集D進行劃分的

“信息增益” information gain

信息增益越大，意味著使用屬性a進行劃分所獲得的 “純度提升” 越大

使用信息增益進行決策樹的劃分屬性選擇 ID3決策樹算法以信息增益為準則來劃分屬性

信息增益準則對可取值數據較多的屬性有所偏好，（編號為屬性的話，N樣本N編號屬性值，編號的信息增益最大）

為減少這種偏好可能帶來的不利影響 C4.5算法不直接使用信息增益，而是

使用增益率? gain rate選擇最優劃分屬性

增益率準則可能對取值數目較少的屬性有所偏好，

C4.5并不是直接選擇增益率的最大候選劃分屬性，

而是使用一個啟發式：

先從候選劃分屬性中找出信息增益高于平均水平的屬性再從中選擇增益率最高的

基尼指數：

CART決策樹：分類和回歸任務都可用

基尼指數反映了從數據集中隨機抽取兩個樣本，其類別標記不一致的概率因此

基尼指數越小? 數據集合的純度越高

所以在選擇屬性劃分時? 基尼指數最小的屬性作為最優劃分屬性

剪枝處理：

剪枝pruning 是決策樹學習中對付過擬合的主要手段

在決策樹學習中為了盡可能正確分類訓練樣本，

節點劃分過程將不斷重復有時會造成決策樹分支過多

訓練樣本學習的太好了把訓練集當中一些自身特點

當作所有數據都具有的一般性質而導致過擬合

可通過主動去掉一些分支降低過擬合的風險

決策樹剪枝：

預剪枝 prepruning

后剪枝 post-pruning

預剪枝是在決策樹生成過程中，對每個結點在劃分前后進行估計，

若當前結點的劃分不能帶來決策樹泛化能力的提升，則

停止劃分并將當前結點標記為葉結點。

后剪枝是從訓練集生成一棵完整的決策樹，然后自底向上地

對非葉節點進行考察，若該結點所對應的子樹替換為

葉結點能夠帶來決策樹泛化能力的性能提升，則將該字數替換為葉子結點。

如何判斷決策樹泛化能力是否提升？

留出法

預剪枝使得決策樹很多分支都沒有“展開”，這不僅降低了過擬合的風險，

還顯著減少了決策樹的訓練時間開銷和預測時間開銷，但另一方面，有些分支的

當前劃分雖不能提升泛化性能、甚至可能導致泛化性能的暫時下降，但在其基礎上進行的后續劃分卻

有可能導致性能顯著提高；預剪枝基于“貪心”本質禁止這些分支展開，

給預剪枝決策樹帶來了欠擬合的風險。

后剪枝：

后剪枝先從訓練集生成一顆決策樹。

后剪枝決策樹通常比預剪枝決策樹保留了更多的分支，

一般情形下，后剪枝決策樹的欠擬合風險很小，泛化性能往往優于預剪枝決策樹，

但后剪枝過程是在生成完全決策樹之后進行的，并且要自底向上地對樹中的

所有非葉結點進行逐一考察，因此其訓練時間開銷比未剪枝預測數和預剪枝決策樹

都要大得多。

對連續屬性進行離散化? 二分法對連續屬性進行處理? C4.5

與離散屬性不同，若當前結點劃分屬性為連續屬性，

該屬性還可作為其后代結點的劃分屬性。

缺失值處理：

不完整樣本，樣本的某些屬性值缺失

在屬性數目比較多的情況下，往往會有大量樣本出現缺失值

如果簡單的放棄不完整樣本，僅使用無缺失值得樣本進行學習，

顯然是對數據信息的極大浪費。

如何在屬性值缺失情況下進行劃分屬性選擇？

A:根據哪些屬性值沒有缺失的樣本來判斷屬性之間的優劣

給定劃分屬性，若樣本在該屬性上的值缺失，如何對樣本進行劃分？

A:若樣本x 在劃分屬性a上的取值未知，將x同時劃入所有子結點，

且樣本權值在于屬性值a-v 對應的子結點中調整為 r-v? * Wx

直觀地說，讓同一個樣本以不同的概率劃入到不同的子結點中去

將每個屬性視為坐標空間中的一個坐標軸，則d個屬性描述的樣本就

對應了d維空間中的一個數據點，對樣本分類則意味著在這個坐標空間中

尋找不同類樣本之間的分類邊界，決策樹所形成的分類邊界有一個明顯的特點：

軸平行 axis-parallel? 它的分類邊界由若干個與坐標軸平行的分段組成

分類邊界的每一段都是與坐標軸平行的，這樣的分類邊界使得學習結果有較好的

可解釋性，每一段劃分都直接對應了某個屬性取值，但在學習任務的真實分類邊界比較復雜時，

必須使用很多段劃分才能獲得較好的近似。

多變量決策樹（斜決策樹）實現斜劃分甚至更復雜劃分的決策樹，

此類決策數中，非葉子結點不再是僅對某個屬性，而是對屬性的線性組合進行測試，

每個非葉結點都是一個線性分類器，，

在對變量決策樹學習中，不是為每個非葉結點尋找一個最優化分屬性，而是

試圖創建一個合適的線性分類器。

決策樹學習算法 ID3? C4.5? ? CART

C4.5Rule是一個將C4.5決策樹轉化為符號規則的算法，

決策樹的每個分支可以容易地重寫為一條規則，

但C4.5Rule算法在轉化過程中，會進行規則前件合并、刪減等操作，

因此，最終規則集的泛化性能甚至可能優于原決策樹。

決策樹劃分選擇準則對決策樹的尺寸有較大影響，但是對泛化性能的影響是有限的。

剪枝方法和程度對決策樹泛化性能的影響相當顯著，實驗研究表明：

在數據帶有噪聲時通過剪枝甚至可將決策樹的泛化性能提高25%

多變量決策樹算法先貪心地尋找每個屬性的最有權值，在局部優化的基礎上

再對分類邊界進行隨機擾動以試圖找到更好的邊界

引入線性分類器的最小二乘法；決策樹的葉子結點上嵌入神經網絡，感知機樹

“增量學習”接收到新樣本后對已學得的模型進行重新調整，

而不用完全重新學習，主要通過調整分支路徑上的劃分屬性次序

來對樹進行部分重構。? ID4，ID5R，

增量學習可以有效地降低每次接收到新樣本后的訓練時間開銷，

但多不增量學習后的模型會與基于全部數據訓練而得的模型有較大差別。

C4.5? J4.8(weka)? Classifier 4.0

神經網絡：neural networks

由具有適應性的簡單單元組成的廣泛并行互連網絡，

它的組織能夠模擬生物神經系統對真實世界物體所作出的交互反應。

神經元模型? neuron == 簡單單元

M-P神經元模型：

神經元接收到來自n個其他神經元傳遞過來的輸入信號，

這些輸入信號通過帶權重的連接connection進行傳遞，

神經元接收到的總輸入值將與神經元的閾值進行比對，

然后通過激活函數 activation function 處理以產生神經元的輸出

理想中的激活函數是階躍函數，將輸入值映射為輸出值0或者1，

1對應于神經元興奮，0對應于神經元抑制。

階躍函數不連續且不光滑，Sigmoid函數作為激活函數。

在較大范圍內變化的輸入值擠壓到（0,1）輸出值范圍內，

也成為擠壓函數（squashing function）

把許多個這樣的神經元按一定層次結構連接起來，得到了神經網絡。

一個神經網絡視為包含了許多參數的數學模型。這個模型是若干個函數

相互帶入嵌套而得。

感知機Perceptron 由兩層神經元組成，輸入層接收外界輸入信號后傳遞給輸出層，

輸出層是M-P神經元，閾值邏輯單元 threshold logic unit

給定訓練數據集，權重Wi以及閾值可通過學習得到。

閾值可看做一個固定輸入為-1.0的啞結點 dummy node所對應的連接權重W（n+1）

這樣，權重和閾值的學習可統一為權重的學習。

若感知機對訓練樣例預測準確，則感知機不發生變化，否則將根據

錯誤的程度進行權重調整。

感知機只有輸出層神經元進行激活函數處理，即只擁有一層功能神經元。

與或非都是線性可分的問題，

若兩類模型是線性可分的，即存在一個線性超平面能將他們分開，

感知機的學習過程一定會收斂converge，否則感知機學習過程中會發生

震蕩（fluctuation），其權重難以穩定，不能求得合適解。

感知機無法解決異或此類的非線性可分問題。

解決非線性可分問題，需要考慮使用多層功能神經元，

簡單的兩層感知機能解決異或問題，輸出層與輸入層之間存在一層神經元，

隱含層 hidden layer，

多層前饋神經網絡：

每層神經元與下一層神經元全互連，神經元之間不存在同層連接，也不存在夸層連接。

前饋不是指網絡中信號不能向后傳遞，而是指網絡拓撲結構上不存在環或回路。

其中輸入層神經元接收外界輸入，隱層與輸出層神經元對信號進行加工，

最終結果由輸出層神經元輸出，輸入層神經元僅是接收輸入，

不進行函數處理，隱層與輸出層包含功能神經元。

神經網絡的學習過程，根據訓練數據來調整神經元之間的連接全 connection weight，

以及每個功能神經元的閾值，神經網絡學到的東西，蘊涵在連接權與閾值中。

誤差逆向傳播算法：error BackPropagation BP算法

多指用于多層前饋神經網絡

BP是一個迭代學習學習算法，在迭代的每一輪中采用廣義的

感知機學習規則對參數進行更新估計，

BP算法基于梯度下降gradient descent 策略，以目標的負梯度方向對

參數進行調整。

BP算法的目標是最小化訓練集D上的累計誤差

基于累計誤差最小化的更新規則，得到累積誤差逆傳播算法。

標準BP算法每次更新只針對單個樣例，參數更新的非常頻繁，

而且對不同樣例進行更新的效果可能出現“抵消”現象，

為達到同樣的累計誤差極小點，標準BP需進行更多次數的迭代。

累計BP算法直接針對累計誤差最小化，在讀取整個訓練集一遍后才對參數進行更新，

其參數更新頻率低，，但很多任務中，累計誤差下降到一定程度后，

進一步下降會非常緩慢，標準BP會更快獲得較好的解，

尤其是訓練集D非常大時更明顯。

只需一個包含足夠多神經元的隱層，多層前饋網絡就能以任意精度逼近

任意復雜度的連續函數，通過試錯法調整隱層神經元的個數。

BP經常過擬合。訓練誤差持續降低，但測試誤差可能上升。

緩解BP網絡的過擬合，早停 early stopping 將數據分成訓練集和驗證集

訓練集用來計算梯度、更新連接權和閾值? 驗證集用來估計誤差

若訓練集誤差降低但驗證集誤差升高停止訓練，同時返回具有

最小驗證集誤差的連接權和閾值

正則化，在誤差目標函數中增加一個用于描述網絡復雜度的部分，

增加連接權與閾值平方和，訓練過程將會偏好比較小的連接權和閾值，

使網絡輸出更加光滑，對過擬合有所緩解。

引入正則化的神經網絡與SVM十分相似。

最后編輯于：2017.12.06 07:45:49

?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明：文章內容（如有圖片或視頻亦包括在內）由作者上傳并發布，文章內容僅代表作者本人觀點，簡書系信息發布平臺，僅提供信息存儲服務。

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市，隨后出現的幾起案子，更是在濱河造成了極大的恐慌，老刑警劉巖，帶你破解...
沈念sama閱讀 227,818評論 6贊 531
死咒
序言：濱河連續發生了三起死亡事件，死亡現場離奇詭異，居然都是意外死亡，警方通過查閱死者的電腦和手機，發現死者居然都...
沈念sama閱讀 98,185評論 3贊 414
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人，你說我怎么就攤上這事?！?“怎么了？”我有些...
開封第一講書人閱讀 175,656評論 0贊 373
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長。經常有香客問我，道長，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 62,647評論 1贊 309
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮，結果婚禮上，老公的妹妹穿的比我還像新娘。我一直安慰自己，他們只是感情好，可當我...
茶點故事閱讀 71,446評論 6贊 405
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著，像睡著了一般。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發上，一...
開封第一講書人閱讀 54,951評論 1贊 321
城市分裂傳說
那天，我揣著相機與錄音，去河邊找鬼。笑死，一個胖子當著我的面吹牛，可吹牛的內容都是我干的。我是一名探鬼主播，決...
沈念sama閱讀 43,041評論 3贊 440
雙鴛鴦連環套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了？” 一聲冷哼從身側響起，我...
開封第一講書人閱讀 42,189評論 0贊 287
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后，有當地人在樹林里發現了一具尸體，經...
沈念sama閱讀 48,718評論 1贊 333
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內容為張勛視角年9月15日...
茶點故事閱讀 40,602評論 3贊 354
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發現自己被綠了。大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 42,800評論 1贊 369
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖，靈堂內的尸體忽然破棺而出，到底是詐尸還是另有隱情，我是刑警寧澤，帶...
沈念sama閱讀 38,316評論 5贊 358
?日本核電站爆炸內幕
正文年R本政府宣布，位于F島的核電站，受9級特大地震影響，放射性物質發生泄漏。R本人自食惡果不足惜，卻給世界環境...
茶點故事閱讀 44,045評論 3贊 347
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧，春花似錦、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 34,419評論 0贊 26
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至，卻和暖如春，著一層夾襖步出監牢的瞬間，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 35,671評論 1贊 281
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留，地道東北人。一個月前我還...
沈念sama閱讀 51,420評論 3贊 390
代替公主和親
正文我出身青樓，卻偏偏與公主長得像，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當晚...
茶點故事閱讀 47,755評論 2贊 371

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

機器學習（周志華）_讀書筆記

機器學習（周志華）_讀書筆記

推薦閱讀更多精彩內容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美 国产 综合 欧美 视频

機器學習（周志華）_讀書筆記

推薦閱讀更多精彩內容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频