特征工程-怎么選擇特征?(一)

特征的選擇對于整個模型預測的準確性有至關重要的作用,好的特征集對于一個機器學習模型的預測效果的邊際貢獻遠遠大于好的模型的貢獻:

  • 不同的機器學習模型(SVM或RandomForest等)對于有效的特征集的訓練效果,差別不會特別大;
  • 但是,如果特征集很爛,無論什么模型,都很難有較好的訓練效果。

所以,還是那句話:

Garbage in, garbage out !

1. 什么是特征(Features)?

特征是任何機器學習模型的進行訓練的”原材料”,無論是監督式模型(Supervised)還是無監督式(Unsupervised)模型,都需要特征集作為輸入變量(Input variables)。當然監督式模型相比無監督式模型還需要輸出變量(Output),我們稱之為目標(target)。無論是特征還是目標,它們的類型無非以下幾種:

  • 二元制(Binary):如{漲,跌}, {對, 錯}, {男, 女};
  • 有限的離散集 (finite discrete): 如一周有七天(星期一、星期二...),或者一個城市的行政區(黃埔、靜安...)。這些數據可以是有序的,也可以是無序的。
  • 連續性數值:處于負無窮到正無窮所有數值,如股價、利率等

2. 特征怎么來?

特征是機器學習模型的“原材料”,那特征的“原材料”是什么?其實就是原始數據,例如股票的行情數據、財務數據等;將這些原始數據經過一系列的轉換加工得到特征,例如技術指標(MACD、DMA等)。在這個轉換的過程中涉及到一系列的數據處理的流程,下面我們進行詳細說明。

數據清洗及處理

做研究最怕什么?數據是錯的,那一切無從談起,在盡可能的確保數據質量的前提下,我們還是要對數據進行規范性的清洗,無論是原始數據、還是經轉換后的特征集都要經過以下步驟進行處理:

  • 缺失值處理:1. 直接刪除(常用); 2. 或者進行插值處理(Interpolate);
  • 異常值處理:1. 直接刪除; 2. 極值處理到一個正常區間(推薦);
  • 標準化處理:1. 正態標準化(常用);2. 其他標準化(見文末);
  • 相關性指標處理:有時候特征集當中有些指標的相關性特別高,對于一些模型,這種指標間的高度相關可能會降低模型的預測效果,所以在訓練模型之前,要找出相關性較高的幾對指標,并保留其中一個。
  • 線性相關指標處理:除了上文提高一對高度相關的指標的問題,同時也可能存在某幾個指標與另一個指標存在線性回歸的關系,這也會影響模型的預測效果。
    01
    01
  • 特征的轉換(可選):如PCA等方法

3. 怎么選擇特征(或指標)?

訓練任何一個機器學習的模型時,輸入的特征并不是越多越好,如果一股腦放入幾十上百個特征去訓練,往往會適得其反。一個模型的好壞往往取決于幾個(三到五個)核心的指標。所以特征的選擇就極為重要。特征選擇主要由以下兩類方法:

  • 過濾法:該方法的特點是不需要機器學習模型的參與,直接測量特征與預測目標(Target)的相關程度,只要通過某些選取標準的指標才會被應用到模型的訓練中。

  • 封裝法:該方法與過濾法最大的區別是在選特征的時候運用的相關的機器學習模型,直接通過篩選預測效果好的指標作為特征集。

兩種方法各有優缺點,過濾法會刪除相關度較低的特征,缺點是某些特征可能本身與目標相關度較低,但與其他特征結合起來可能會提高預測的效果,所以存在誤刪的情況。封裝法直接將特征輸入模型,通過各種迭代選出最適合某些模型的一組特征;缺點時運算效率太慢,而且存在過度擬合的風險。最適合的解決辦法是,通過過濾法篩選出一批有潛力的特征,再通過封裝法精選特征,從而構建一個預測效果良好的機器學習模型。

在這篇文章中,我們主要討論過濾法的實際運用。通過各種不同的判斷特征重要性的方法與標準選則相應的特征,無外乎以下幾種方法:

  • 選擇重要性最高的前N個特征;
  • 選擇重要性最高的前n%的特征;
  • 選擇重要性超過一定閾值s的特征。

無論是N、n還是s,都可以通過優化的方法找到最優值運用到最后的模型中去。

3.1 重要性

現在主要的問題就是怎么評價一個特征對于所需預測的目標的重要性,我們稱之為Variable Importance(VI)。結合各方面的文獻,VI的評價方法主要有以下指標:

  • 信息熵(Mutual Information)
  • Cramer's V

(未完待續)

總結

所有算法的學習都要了解該算法所針對的問題,以及這個問題是不是你當前遇到的。不推薦窮舉式的嘗試去找出一個最優的組合,這樣的做法

附錄

其他標準化方法

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 227,748評論 6 531
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 98,165評論 3 414
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事?!?“怎么了?”我有些...
    開封第一講書人閱讀 175,595評論 0 373
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 62,633評論 1 309
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 71,435評論 6 405
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 54,943評論 1 321
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,035評論 3 440
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 42,175評論 0 287
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 48,713評論 1 333
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 40,599評論 3 354
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 42,788評論 1 369
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,303評論 5 358
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 44,034評論 3 347
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,412評論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 35,664評論 1 280
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 51,408評論 3 390
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 47,747評論 2 370

推薦閱讀更多精彩內容