企業所得稅是企業經營過程中的一項重點關注內容,分析企業所得稅的影響因素,預測未來兩年有效的企業所得稅,為未來企業發展提供指導依據,在企業經營過程中有重大意義。現有某企業2004年至2015年相關的數據,希望以此為基礎,預測2016年及2017年的企業所得稅。
步驟
1、獲取數據;
2、相關性分析;
3、Lasso特征選擇;
4、單個特征灰色預測;
5、SVR預測2016年及2017年企業所得稅,并對模型進行評價。
NO.1 獲取數據
考慮數據的可得性和與實際情況的關聯性,選取2004年-2015年某企業相關維度的數據,具體字段名及說明如下表:
NO.2 分析企業所得稅數據的相關性
從已有數據,可知道共有10個因素會影響企業所得稅,需要計算各影響因素與目標特征之間的相關系數,進而判斷企業所得稅與選取特征之間的相關性。這里,我們計算10個特征間的Pearson相關系數,結果如下:
由上可知,x6與企業所得稅(y)呈負相關關系,其余特征均與y呈正相關關系,且各個特征間存在嚴重的多重共線性,如x1,x2,x3,x4,x7,x8,x10。因此,需要對這些特征進行進一步篩選,避免信息重復。
NO.3 用Lasso回歸選取關鍵特征
Lasso回歸方法屬于正則化方法的一種,是一種收縮估計方法,它可以將特征的系數進行壓縮并使某些回歸系數變為0,從而達到特征選擇的目的。Lasso對數據類型沒有太多限制,一般不需要對數據進行標準化處理,可以有效的解決多重共線性問題,但它傾向于選擇多個特征中的一個特征,會導致結果的不穩定性。本例中,多重共線性的問題較為嚴重,因此使用Lasso進行特征選擇是一個恰當的方法。
根據上圖的結果,Lasso識別的影響企業所得稅因素為x1,x9,x2。
NO.4 用灰色預測得到單特征預測值
因為各因素沒有2016年、2017年的數據,因此我們需要先通過灰色預測得到單個特征在2016年、2017年的值?;疑A測是一種對含有不確定因素的系統進行預測的方法,具有預測精度高、模型可檢驗、參數估計方法簡單的特點,但對序列的光滑度要求較高?;疑A測通過后驗差檢驗判別模型精度,結果參照表如下:
通過GM方法進行灰色預測,x1、x2、x3的后驗差檢驗結果及在2016年、2017年的預測值如下:
NO.5 用SVR構建預測模型
SVR(支持向量回歸)不僅適用于線性模型,也能很好的抓住數據和特征之間的非線性關系,可避免局部最小問題,但計算復雜度較高,數據量大時,耗時較長。模型預測后,可通過R2值來判斷模型效果,R2越接近1,表示模型擬合效果越好。
實現代碼
點擊原文(商業分析python實戰(一):企業所得稅預測)后臺回復“企業”可得本例數據及代碼。
參考內容:
1、《R語言商務數據分析實戰》