本內容為【科研私家菜】R語言機器學習與臨床預測模型系列課程
R小鹽準備介紹R語言機器學習與預測模型的學習筆記
你想要的R語言學習資料都在這里, 快來收藏關注【科研私家菜】
01 預測模型的本質
預測模型是通過已知預測未知。模型=數學公式。用已知的東西通過模型計算預測未知。
通過回歸建模分析,回歸的本質即為發現規律。回歸是量化衡量X多大程度上影響Y。
模型的效能評價是統計分析、數據建模、課題設計的關鍵。
02 預測模型研究思路
03 模型驗證的步驟
04 模型模型的樣本量估計
EPV(events per variable):每個自變量所需要的事件數。
多因素分析中至少需要的 EPV數量為10-20個。
EPV=研究對象中較少組的數量/自變量的個數。
比如: 如果m個研究對象中有m1個人有疾病,m2個人無疾病
(m1+m2=m),同時m1小于m2,此時EPV=m1/n(n為自變量個數)。考慮 EPV>10,應該是足夠的了。
05 模型驗證及效能評價
- 診斷方法的鑒別能力(Discrimination):ROC分析、C-Statistics&C-Index
- 診斷方法的準確性(Calibration analysis) :Calibration plot
- 臨床實用性(Clinical utility)-DCA :決策曲線
內部驗證方法包括隨機拆分驗證、交叉驗證以及Bootstrap重抽樣;外部驗證可采用不同時間、不同地域、不同時間及地域的數據集。
區分度(Discrimination)和校準度(Calibration)是兩個最常見的模型評價指標。區分度是指模型區分是否患有待診斷的疾病(診斷模型)或是否發生預期的事件(預后模型)的能力,最常見的區分度刻畫指標如AUC,或者C統計量。校準度則是評估預測的概率與實際觀察到的概率的一致性,常見的統計指標是如Brier得分。此外,也有學者建議用校準截距(Calibration-in-the-large)、校準斜率以及決策曲線分析(Decision-curve analysis)來評價預測模型 。有時候,研究者想要比較新開發的模型對現有模型的改進,或者關注單個預測因子的預測效能增加值(Incremental value),此時用AUC值評價并不靈敏,推薦的指標是綜合區分改善度(IDI)和凈重分類改善度(NRI)。
關注R小鹽,關注科研私家菜(VX_GZH: SciPrivate),有問題請聯系R小鹽。讓我們一起來學習 R語言機器學習與臨床預測模型