機器學習算法基礎（使用Python代碼）

image

介紹

谷歌的自動駕駛汽車和機器人受到了很多媒體的關注，但該公司真正的未來是在機器學習領域，這種技術能使計算機變得更聰明，更個性化。-Eric Schmidt（Google董事長）

我們可能生活在人類歷史上最具決定性的時期。從大型的電腦主機到個人電腦再到云計算的時代。但是，它的定義并不是發生了什么，而是未來幾年我們將面臨什么。

對于我這樣的人來說，這段時期真的是讓人興奮和著迷的，因為隨著技術的發展，各種工具和技術都實現了飛躍化，現在歡迎人類來到數據科學的世界！

今天，作為一名數據科學家，我可以用每小時幾美元的成本，用復雜算法構建數據處理機器。但是實現這并不容易！因為我需要面臨度過無數個黑暗的日日夜夜。

學習Python中的小伙伴，需要學習資料的話，可以到我的微信公眾號：Python學習知識圈，后臺回復：“01”，即可拿Python學習資料
這里有我自己整理了一套最新的python系統學習教程，包括從基礎的python腳本到web開發、爬蟲、數據分析、數據可視化、機器學習等。送給正在學習python的小伙伴！這里是python學習者聚集地，歡迎初學和進階中的小伙伴！

機器學習算法類型

從廣義上講，有3種類型的機器學習算法。

1.監督學習

工作原理：該算法由一個目標/結果變量（或因變量）組成，該變量將從給定的一組預測變量（自變量）中預測。使用這些變量集，我們生成一個將輸入映射到所需輸出的函數。訓練過程繼續進行，直到模型在訓練數據上達到所需的準確度。監督學習的例子：回歸，決策樹，隨機森林，KNN，邏輯回歸等。

2.無監督學習

工作原理：在此算法中，我們沒有任何目標或結果變量來進行預測/估計。它用于將人群進行聚類到不同群體中，廣泛用于將客戶劃分到不同的群體中去并進行具體的干預。無監督學習的例子：Apriori算法，K-means。

3.強化學習：

工作原理：使用這種算法，機器經過培訓，可以做出具體決策。它的工作原理是這樣的：機器暴露在一個環境中，在這個環境中，它通過反復試驗不斷地訓練自己。機器從過去的經驗中學習，并嘗試獲取盡可能好的知識，以做出準確的業務決策。強化學習的例子：馬爾可夫決策過程

常用機器學習算法列表

以下是常用機器學習算法的列表。這些算法幾乎可以應用于任何數據問題：

線性回歸
邏輯回歸
決策樹
SVM
樸素貝葉斯
k近鄰
K均值
隨機森林
降維算法
梯度增強算法
GBM
XGBoost
LightGBM
CatBoost

1.線性回歸

線性回歸用于根據連續變量估算實際值（房屋成本，通話成本，總銷售額等）。在這里，我們通過擬合一條直線來建立自變量和因變量之間的關系。該最佳擬合線稱為回歸線，并由線性方程Y = a * X + b表示。

理解線性回歸的最佳方法是重溫這種童年經歷。讓我們假設，你讓一個五年級的孩子，通過體重增加的順序來安排他們班級中的人，而不是通過問他們的體重！你覺得孩子會怎么做？他/她可能會在人的身高和體型上進行（視覺分析）安排，并使用這些可見參數的組合進行排列。這就是現實生活中的線性回歸！這個孩子實際上已經發現高度和體格將通過一個關系與體重聯系起來，就像上面的方程一樣。

在這個等式中：

Y - 因變量
a - 坡度
X - 自變量
b - 攔截

這些系數a和b是基于最小化數據點和回歸線之間的距離的平方差的總和而算出的。

請看下面的例子。在這里，我們確定了線性方程y = 0.2811x + 13.9的最佳擬合線。現在使用這個方程，我們可以求出重量，而知道一個人的身高。

創建本指南背后的想法是簡化世界各地有抱負的數據科學家和機器學習愛好者的旅程。通過本指南，我將幫助您解決機器學習問題并從經驗中獲益。我提供了對各種機器學習算法的高級理解以及運行它們的R＆Python代碼。這些應該足以弄臟你的手。

image

線性回歸主要有兩種類型：簡單線性回歸和多元線性回歸。簡單線性回歸的特征在于一個自變量。而多元線性回歸（顧名思義）的特征是多個（超過1個）的自變量。在找到最佳擬合線時，可以擬合多項式或曲線回歸。這些被稱為多項式或曲線回歸。

Python代碼

Import Library

Import其他必要的庫，如pandas，numpy ......

from sklearn import linear_model

讀取訓練集和測試集

識別特征和響應變量以及值必須是數字和numpy數組

x_train=input_variables_values_training_datasets
y_train=target_variables_values_training_datasets
x_test=input_variables_values_test_datasets

創建線性回歸對象

linear = linear_model.LinearRegression()

使用訓練集訓練模型并檢查分數

linear.fit(x_train, y_train)
linear.score(x_train, y_train)

方程系數和截距

print('Coefficient: \n', linear.coef_)
print('Intercept: \n', linear.intercept_)

預測輸出

predicted = linear.predict(x_test)

2.邏輯回歸

不要被它的名字搞混了！邏輯回歸是一種分類而非回歸算法。它用于根據給定的自變量集估計離散值（二進制值，如0/1，是/否，真/假）。簡單來說，它通過將數據擬合到logit函數來預測事件發生的概率。因此，它也被稱為logit回歸。由于它預測概率，因此其輸出值介于0和1之間（如預期的那樣）。

讓我們再一次通過一個簡單的例子來嘗試理解這一點。

假設你的朋友給你出了一個難題讓你來解決。那只有2個結果場景 - 要么你成功的解決了它，要么你沒能解決它。現在想象一下，你正在進行各種各樣的解謎/測驗，試圖了解你擅長哪些科目。這項研究的結果應該是這樣的 - 如果給你一個基于三角測量的十年級問題，你有70％的可能解決它。另一方面，如果是五年級的歷史問題，獲得答案的概率僅為30％。這就是邏輯回歸為您提供的。

在數學中，結果的對數概率被建模為預測變量的線性組合。

odds = p /（1-p）=事件發生概率/非事件發生概率
ln（賠率）= ln（p /（1-p））
logit（p）= ln（p /（1-p））= b0 + b1X1 + b2X2 + b3X3 .... + bkXk

上面，p是存在感興趣特征的概率。它選擇的參數最大化的觀察了樣本值的可能性，而不是使誤差平方和最小化（如普通回歸）。

現在，你可能會問，為什么要記錄對數？為簡單起見，我們只是說這是復制躍階函數的最佳數學方法之一。我可以介紹的更加仔細，但是這就會超出這篇文章所要描述的。

image

Python代碼

Import Library

from sklearn.linear_model import LogisticRegression

假設你有用于訓練數據集的X（預測器）和Y（目標），以及測試集的x（預測期）

Create logistic regression object

model = LogisticRegression()

使用訓練集訓練模型，并檢查成績

model.fit(X, y)
model.score(X, y)

查看方程系數和截距

print('Coefficient: \n', model.coef_)
print('Intercept: \n', model.intercept_)

預測輸出

predicted= model.predict(x_test)

此外..

為了改進模型，可以嘗試許多不同的步驟：

包括互動條款
刪除功能
正則化技術
使用非線性模型

3.決策樹

這是我最喜歡的算法之一，我經常使用它。決策樹是一種監督學習算法，主要用于分類問題。讓人驚喜的是，它適用于分類因變量和連續因變量。在該算法中，我們將總體分成兩個或更多個同類集。這是基于最重要的屬性/獨立變量來完成的，以盡可能地形成不同的群體。

image

在上圖中，您可以看到人群根據多個屬性分為四個不同的群體，以識別“他們是否會出去玩”。為了將人口分成不同的異構群體，決策樹使用了各種技術，如基尼系數，信息增益，卡方，熵。

理解決策樹如何工作的最好方法是玩Jezzball--一款來自微軟的經典游戲（如下圖所示）。基本上，你有一個移動墻壁的房間，你需要創建墻壁，以便最大限度的區域被球清除。

image

所以，每次你用墻隔開房間時，你都是試圖在同一個房間里創造2個不同的群體。決策樹以非常類似的方式工作，通過將一個群體分成盡可能多的不同群體。

Python代碼

導入 Library庫

導入其他必要的庫，如pandas, numpy...

from sklearn import tree

假設你有用于訓練數據集的X（預測器）和Y（目標），以及測試集的X（預測器）

創建樹對象

model = tree.DecisionTreeClassifier(criterion='gini') #對于分類，這里可以將算法更改為基尼系數或信息增益，默認為基尼系數

model = tree.DecisionTreeRegressor() for regression

使用訓練集訓練模型，并檢查成績

model.fit(X, y)
model.score(X, y)

預測輸出

predicted= model.predict(x_test)

4. SVM（支持向量機）

這是一種分類方法。在此算法中，我們將每個數據項繪制為n維空間中的點（其中n是你擁有特征的數量），每個特性的值是特定坐標的值。

例如，如果我們只有兩個特征，分別是一個人的身高和頭發長度，我們首先在二維空間中繪制這兩個變量，其中每個點有兩個坐標（這些坐標稱為支持向量）

image

現在，找到一條線，這條線在兩個不同分類的數據組之間進行分隔。這樣的話這條直線最近的點的距離都是最遠的。

image

在上面的例子中，將數據分成兩個不同分類組的線是黑色的，因為兩個最接近的點距離線最遠。這條線是我們的分類器。然后，根據測試數據落在線路兩側的位置，我們可以將新數據分類為哪一類。

可以將此算法視為在n維空間中玩JezzBall。游戲中的調整是：

您可以在任何角度繪制線條/平面（而不是像經典游戲中那樣只能畫水平或垂直線）
游戲的目的是在不同的房間隔離不同顏色的球。
并且球沒有移動。

Python代碼

Import Library

from sklearn import svm

假設你有用于訓練數據集的X（預測器）和Y（目標），以及測試集的X（預測器）

創建SVM分類對象

model = svm.svc() # 有各種各樣的選型相關，這對于分類來說很簡單，可以參考函數的詳細信息

使用訓練集訓練模型，并檢查成績

model.fit(X, y)
model.score(X, y)

輸出預測

predicted= model.predict(x_test)

5.樸素貝葉斯

它是一種基于貝葉斯定理的分類技術，假設在預測變量之間具有獨立性。簡單來說，樸素貝葉斯分類器假設類中某個特定特征的存在與任何其他特征的存在無關。例如，如果水果是紅色的，圓形的，直徑約3英寸，則可以認為它是蘋果。即使這些特征相互依賴或依賴于其他特征的存在，一個樸素的貝葉斯分類器會認為所有這些特性都獨立地促成了這種水果是蘋果的概率。

樸素貝葉斯模型易于構建，特別適用于非常大的數據集。除簡單之外，樸素貝葉斯的性能甚至超過了非常復雜的分類方法。

貝葉斯定理提供了一種從P（c），P（x）和P（x | c）計算后驗概率P（c | x）的方法。請看下面的方程：

image

方程中，

P（c | x）是給定預測器（屬性）的類（目標）的后驗概率。
P（C ^）是類的先驗概率。
P（x | c）為似然值，即給定類別的預測器概率。
P（x）是預測器的先驗概率。

示例： 讓我們用一個例子來理解它。下面我有一個天氣訓練數據集和相應的目標變量'Play'。現在，我們需要根據天氣情況對玩家是否出去玩進行分類。讓我們按照以下步驟執行它。

第1步：將數據集轉換為頻率表

步驟2：通過找到陰天概率為0.29和出去玩的概率為0.64的概率來創建似然表。

image

步驟3：現在，使用樸素貝葉斯方程計算每個類的后驗概率。具有最高后驗概率的一類就是預測的結果。

問題：如果天氣晴朗，玩家會出去玩，這個說法是否正確？

我們可以使用上面討論的方法解決它，所以P（出去| 陽光充足）= P（陽光充足 | 出去）* P（出去）/ P（陽光充足）

這里有P（陽光充足 |出去）= 3/9 = 0.33，P（陽光充足）= 5/14 = 0.36，P（出去）= 9/14 = 0.64

現在，P（出去| 陽光充足）= 0.33 * 0.64 / 0.36 = 0.60，概率更高。

樸素貝葉斯使用類似的方法根據各種屬性預測不同類別的概率。該算法主要用于文本分類，并且具有多個類的問題。

Python代碼

Import Library

from sklearn.naive_bayes import GaussianNB

假設你有用于訓練數據集的X（預測器）和Y（目標），以及測試集的X（預測器）

Create SVM classification object model = GaussianNB() # 對于多項式類，還有其他的分布，如伯努利樸素貝葉斯，可以查看函數的詳細內容

使用訓練集訓練模型，并檢查成績

model.fit(X, y)

輸出預測

predicted= model.predict(x_test)

6. KNN（k-近鄰）

KNN可以用于分類和回歸問題。然而，它更廣泛地用于行業中的分類問題。K近鄰是一種簡單的算法，它存儲所有可用的案例，并通過其k個近鄰的點進行多數投票對新案例進行分類。分配給該類的情況在由距離函數測量的其K個最近鄰中決定。

這些距離函數可以是歐幾里得距離，曼哈頓距離，閔可夫斯基和漢明距離。前三個函數用于連續函數，第四個函數（漢明）用于分類變量。如果K = 1，則將該案例簡單地分配給其最近鄰的類別。有時候，選擇K的值在執行KNN建模時是一個挑戰。

image

KNN很容易映射到我們的現實生活中。如果你想了解一個你不了解的人，你可以通過他/她的朋友和他/她所處在的圈子，輕松的了解到他/她是什么樣的人！

選擇KNN之前需要考慮的事項：

KNN在計算上很昂貴
變量應該歸一化，否則較大范圍的變量會產生偏差
在使用KNN之前需要進行一些預處理工作比如：異常值、噪聲的去除

Python代碼

Import Library

from sklearn.neighbors import KNeighborsClassifier

假設你有用于訓練數據集的X（預測器）和Y（目標），以及測試集的X（預測器）

創建KNN分類器對象模型

KNeighborsClassifier(n_neighbors=6) # default value for n_neighbors is 5

使用訓練集訓練模型，并檢查成績

model.fit(X, y)

輸出預測

predicted= model.predict(x_test)

7. K-Means

K-Means是一種無監督算法，可以解決聚類問題。其過程遵循一種簡單易行的方法，通過一定數量的簇（假設有k個簇）對給定數據集進行分類。集群內的數據點對于同一個組來說是同構和異構的。

還記得從墨跡中找出形狀嗎？k-Means的意思就有點類似于從墨跡中找形狀。你看這個形狀然后把它分散開來，然后解釋這里有多少不同的簇！

image

K-means如何形成簇：

K-means為稱為中心的每個簇選擇k個點。
每個數據點形成一個離中心最近的簇，即K簇。
根據現有集群成員查找每個集群的質心。然后，生成新的質心。
當我們有新的質心時，重復第二步和第三步.找到每個數據點與新質心的最近距離，并與新的k-簇相關聯。重復此過程直到收斂發生，即質心不會改變。

如何確定K的值：

在K-means中，我們有簇，每個簇都有自己的質心。質心和簇內數據點之間的差的平方和構成該簇的平方值的總和。此外，當添加所有簇的平方和時，它在聚類解的平方值之和內變為總和。

我們知道隨著聚類數量的增加，這個值會繼不斷減小，但是如果你繪制出結果，你可能會看到平方和會急劇下降到某個k值，然后會慢得多。在這里，我們可以找到最佳的簇數。

image

Python代碼

Import Library

from sklearn.cluster import KMeans

假設你有用于訓練數據集的X（預測器）和Y（目標），以及測試集的X（預測器）

創建K-means分類器對象模型

k_means = KMeans(n_clusters=3, random_state=0)

使用訓練集訓練模型，并檢查成績

model.fit(X)

輸出預測

predicted= model.predict(x_test)

8.隨機森林

隨機森林是決策樹集合的專業術語。在隨機森林中，我們收集了決策樹（俗稱“森林”）。為了根據屬性對新對象進行分類，每個樹都給出一個分類，然后通過每個數進行投票。新的對象選擇那個投票最多的分類（在森林中的所有樹中）。

每棵樹的種植和生長方式如下：

如果訓練集中的案例數是N，那么N個案例的樣本是隨機抽取，并進行替換。這個樣本將是用于作為樹的訓練集。
如果存在M個輸入變量，則指定數字m << M，使得在每個節點處，從M中隨機選擇m個變量，并且使用這些m上的最佳分割來分割節點。在森林生長期間，m的值保持不變。
每棵樹都盡可能地生長。不需要剪枝。

Pyhon代碼

Import Library

from sklearn.ensemble import RandomForestClassifier

假設你有用于訓練數據集的X（預測器）和Y（目標），以及測試集的X（預測器）

創建隨機森林對象

model= RandomForestClassifier()

使用訓練集訓練模型，并檢查成績

model.fit(X, y)

輸出預測

predicted= model.predict(x_test)

9.維度降低算法

在過去的4到5年中，每個可能階段的數據捕獲都呈指數級增長。企業/政府機構/研究機構不僅提供新的資源，而且還非常詳細地捕獲數據。

例如：電子商務公司正在捕捉有關客戶的更多詳細信息，例如他們的人口統計數據，網絡抓取歷史記錄，他們喜歡或不喜歡的內容，購買歷史記錄，反饋以及許多其他人，比最近的雜貨店主更多地給予他們個性化的關注。

作為一名數據科學家，我們提供的數據也包含許多功能，這對于構建良好的穩健模型非常有用，但是存在挑戰。你如何確定1000或2000以外的重要變量？在這種情況下，降維算法可以幫助我們與各種其他算法一起使用，例如決策樹，隨機森林，PCA，因子分析，基于相關矩陣的識別，缺失值比率等。

Python代碼

Import Library

from sklearn import decomposition

假設你擁有訓練和測試數據集作為訓練和測試

Create PCA obeject pca= decomposition.PCA(n_components=k) #k=min的默認值（n個樣本，n個特征）

進行因子分析

fa= decomposition.FactorAnalysis()

使用PCA降低訓練數據集的維數

train_reduced = pca.fit_transform(train)

減少測試數據集的維數

test_reduced = pca.transform(test)

Import Library

from sklearn.ensemble import GradientBoostingClassifier

假設你有用于訓練數據集的X（預測器）和Y（目標），以及測試集的X（預測器）

創建梯度增強分類器對象

model= GradientBoostingClassifier(n_estimators=100, learning_rate=1.0, max_depth=1, random_state=0)

使用訓練集訓練模型，并檢查成績

model.fit(X, y)

輸出預測

predicted= model.predict(x_test)

10.2 XGBoost

另一種經典的梯度增強算法，在一些Kaggle比賽中被認為是決定輸贏的選擇。

XGBoost具有極高的預測能力，它同時具有線性模型和樹模型的學習算法，使得該算法的速度幾乎是現有的梯度增強技術的10倍，是確保事件精度的最佳選擇。

支持包括各種目標函數，包括回歸，分類和排序。

關于XGBoost最有趣的事情之一是，它也被稱為正則化增強技術。這有助于減少過度擬合建模，并對Scala，Java，R，Python，Julia和C ++等一系列語言提供強大的支持。

支持在包含GCE，AWS，Azure和Yarn集群的許多機器上進行分布式和廣泛的訓練。XGBoost還可以與Spark，Flink和其他云數據流系統集成，并在每次升級過程中進行內置交叉驗證。

Python代碼：

from xgboost import XGBClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
X = dataset[:,0:10]
Y = dataset[:,10:]
seed = 1

X_train, X_test, y_train, y_test = train_test_split(X, Y, test_size=0.33, random_state=seed)

model = XGBClassifier()

model.fit(X_train, y_train)

對測試數據進行預測

y_pred = model.predict(X_test)

10.3 LightGBM

LightGBM是一種使用基于樹的學習算法的梯度增強框架。它被設計成為分布式和具有高效性，有以下優點，：

更快的培訓速度和更高的效率
降低內存使用
更準確的精度
支持并行和GPU學習
能夠處理大規模數據

該框架是一種基于決策樹算法，快速高性能的梯度增強框架，，用于排序，分類和許多其他機器學習任務。它是在Microsoft的分布式機器學習工具包項目下開發的。

由于LightGBM基于決策樹算法，因此它以最佳擬合分割樹葉，而其他提升算法則以深度或水平方向分割而不是樹葉方向分割。因此，當在Light GBM中生長在相同的葉子上時，葉子算法可以比水平算法減少更多的損失，因此導致更好的精度，這是任何現有的增強算法都很難實現的。

而且，它非常的快，因此才有了“Light”這個詞。

Python代碼：

data = np.random.rand(500, 10) # 500個實體，每個包含10個特性
label = np.random.randint(2, size=500) #二進制目標

train_data = lgb.Dataset(data, label=label)
test_data = train_data.create_valid('test.svm')

param = {'num_leaves':31, 'num_trees':100, 'objective':'binary'}
param['metric'] = 'auc'

num_round = 10
bst = lgb.train(param, train_data, num_round, valid_sets=[test_data])

bst.save_model('model.txt')

7個實體，每個包含10個特性

data = np.random.rand(7, 10)
ypred = bst.predict(data)

10.4 Catboost

CatBoost是Yandex最近開發的一種開源的機器學習算法。它可以輕松地與Google的TensorFlow和Apple的Core ML等深度學習框架進行集成。

關于CatBoost最好的優點是它不像其他ML模型那樣需要大量的數據訓練，并且可以處理各種數據格式; 并不會削弱它的強大能力。

但是在Catboost之前，請確保已妥善處理好缺失的數據了。

Catboost可以在不顯示類型轉換錯誤的情況下自動處理分類變量，這有助于您專注于更好地優化模型，而不是整理出瑣碎的錯誤。

Python代碼：

import pandas as pd
import numpy as np

from catboost import CatBoostRegressor

讀取訓練集和測試集的文件

train = pd.read_csv("train.csv")
test = pd.read_csv("test.csv")

為訓練集和測試集計算缺失值

train.fillna(-999, inplace=True)
test.fillna(-999,inplace=True)

為建模和驗證集創建訓練集，以檢查模型性能

X = train.drop(['Item_Outlet_Sales'], axis=1)
y = train.Item_Outlet_Sales

from sklearn.model_selection import train_test_split

X_train, X_validation, y_train, y_validation = train_test_split(X, y, train_size=0.7, random_state=1234)
categorical_features_indices = np.where(X.dtypes != np.float)[0]

導入庫并構建模型

from catboost import CatBoostRegressormodel=CatBoostRegressor(iterations=50, depth=3, learning_rate=0.1, loss_function='RMSE')

model.fit(X_train, y_train,cat_features=categorical_features_indices,eval_set=(X_validation, y_validation),plot=True)

submission = pd.DataFrame()

submission['Item_Identifier'] = test['Item_Identifier']
submission['Outlet_Identifier'] = test['Outlet_Identifier']
submission['Item_Outlet_Sales'] = model.predict(test)

結束語

到目前為止，我相信，你已經了解這些常用的機器學習算法。如果您熱衷于掌握機器學習，請立即開始處理問題，通過對問題進行處理，并應用這些代碼，那你肯定會感到興趣，然后在機器學習這條道路上走下去！

?著作權歸作者所有,轉載或內容合作請聯系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市，隨后出現的幾起案子，更是在濱河造成了極大的恐慌，老刑警劉巖，帶你破解...
沈念sama閱讀 227,401評論 6贊 531
死咒
序言：濱河連續發生了三起死亡事件，死亡現場離奇詭異，居然都是意外死亡，警方通過查閱死者的電腦和手機，發現死者居然都...
沈念sama閱讀 98,011評論 3贊 413
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人，你說我怎么就攤上這事。” “怎么了？”我有些...
開封第一講書人閱讀 175,263評論 0贊 373
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長。經常有香客問我，道長，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 62,543評論 1贊 307
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮，結果婚禮上，老公的妹妹穿的比我還像新娘。我一直安慰自己，他們只是感情好，可當我...
茶點故事閱讀 71,323評論 6贊 404
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著，像睡著了一般。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發上，一...
開封第一講書人閱讀 54,874評論 1贊 321
城市分裂傳說
那天，我揣著相機與錄音，去河邊找鬼。笑死，一個胖子當著我的面吹牛，可吹牛的內容都是我干的。我是一名探鬼主播，決...
沈念sama閱讀 42,968評論 3贊 439
雙鴛鴦連環套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了？” 一聲冷哼從身側響起，我...
開封第一講書人閱讀 42,095評論 0贊 286
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后，有當地人在樹林里發現了一具尸體，經...
沈念sama閱讀 48,605評論 1贊 331
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內容為張勛視角年9月15日...
茶點故事閱讀 40,551評論 3贊 354
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發現自己被綠了。大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 42,720評論 1贊 369
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖，靈堂內的尸體忽然破棺而出，到底是詐尸還是另有隱情，我是刑警寧澤，帶...
沈念sama閱讀 38,242評論 5贊 355
?日本核電站爆炸內幕
正文年R本政府宣布，位于F島的核電站，受9級特大地震影響，放射性物質發生泄漏。R本人自食惡果不足惜，卻給世界環境...
茶點故事閱讀 43,961評論 3贊 345
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧，春花似錦、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 34,358評論 0贊 25
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至，卻和暖如春，著一層夾襖步出監牢的瞬間，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 35,612評論 1贊 280
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留，地道東北人。一個月前我還...
沈念sama閱讀 51,330評論 3贊 390
代替公主和親
正文我出身青樓，卻偏偏與公主長得像，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當晚...
茶點故事閱讀 47,690評論 2贊 370

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美 国产 综合 欧美 视频

機器學習算法基礎（使用Python代碼）

介紹

機器學習算法類型

1.監督學習

2.無監督學習

3.強化學習：

常用機器學習算法列表

1.線性回歸

Import Library

Import其他必要的庫，如pandas，numpy ......

讀取訓練集和測試集

識別特征和響應變量以及值必須是數字和numpy數組

創建線性回歸對象

使用訓練集訓練模型并檢查分數

方程系數和截距

預測輸出

2.邏輯回歸

Import Library

假設你有用于訓練數據集的X（預測器）和Y（目標），以及測試集的x（預測期）

Create logistic regression object

使用訓練集訓練模型，并檢查成績

查看方程系數和截距

預測輸出

此外..

3.決策樹

Python代碼

導入 Library庫

導入其他必要的庫，如pandas, numpy...

假設你有用于訓練數據集的X（預測器）和Y（目標），以及測試集的X（預測器）

創建樹對象

model = tree.DecisionTreeRegressor() for regression

使用訓練集訓練模型，并檢查成績

預測輸出

4. SVM（支持向量機）

Python代碼

Import Library

假設你有用于訓練數據集的X（預測器）和Y（目標），以及測試集的X（預測器）

創建SVM分類對象

使用訓練集訓練模型，并檢查成績

輸出預測

5.樸素貝葉斯

Python代碼

Import Library

假設你有用于訓練數據集的X（預測器）和Y（目標），以及測試集的X（預測器）

Create SVM classification object model = GaussianNB() # 對于多項式類，還有其他的分布，如伯努利樸素貝葉斯，可以查看函數的詳細內容

使用訓練集訓練模型，并檢查成績

輸出預測

6. KNN（k-近鄰）

Python代碼

Import Library

假設你有用于訓練數據集的X（預測器）和Y（目標），以及測試集的X（預測器）

創建KNN分類器對象模型

使用訓練集訓練模型，并檢查成績

輸出預測

7. K-Means

Python代碼

Import Library

假設你有用于訓練數據集的X（預測器）和Y（目標），以及測試集的X（預測器）

創建K-means分類器對象模型

使用訓練集訓練模型，并檢查成績

輸出預測

8.隨機森林

Import Library

假設你有用于訓練數據集的X（預測器）和Y（目標），以及測試集的X（預測器）

創建隨機森林對象

使用訓練集訓練模型，并檢查成績

輸出預測

9.維度降低算法

Python代碼

Import Library

假設你擁有訓練和測試數據集作為訓練和測試

Create PCA obeject pca= decomposition.PCA(n_components=k) #k=min的默認值（n個樣本，n個特征）

進行因子分析

fa= decomposition.FactorAnalysis()

使用PCA降低訓練數據集的維數

減少測試數據集的維數

更多細節請查看幫助文檔

10.梯度增強算法

10.1 GBM

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频