本內(nèi)容為【科研私家菜】R語言機(jī)器學(xué)習(xí)與臨床預(yù)測模型系列課程
R小鹽準(zhǔn)備介紹R語言機(jī)器學(xué)習(xí)與預(yù)測模型的學(xué)習(xí)筆記
你想要的R語言學(xué)習(xí)資料都在這里, 快來收藏關(guān)注【科研私家菜】
01 預(yù)測模型的本質(zhì)
預(yù)測模型是通過已知預(yù)測未知。模型=數(shù)學(xué)公式。用已知的東西通過模型計(jì)算預(yù)測未知。
通過回歸建模分析,回歸的本質(zhì)即為發(fā)現(xiàn)規(guī)律。回歸是量化衡量X多大程度上影響Y。
模型的效能評價(jià)是統(tǒng)計(jì)分析、數(shù)據(jù)建模、課題設(shè)計(jì)的關(guān)鍵。
02 預(yù)測模型研究思路
03 模型驗(yàn)證的步驟
04 模型模型的樣本量估計(jì)
EPV(events per variable):每個(gè)自變量所需要的事件數(shù)。
多因素分析中至少需要的 EPV數(shù)量為10-20個(gè)。
EPV=研究對象中較少組的數(shù)量/自變量的個(gè)數(shù)。
比如: 如果m個(gè)研究對象中有m1個(gè)人有疾病,m2個(gè)人無疾病
(m1+m2=m),同時(shí)m1小于m2,此時(shí)EPV=m1/n(n為自變量個(gè)數(shù))。考慮 EPV>10,應(yīng)該是足夠的了。
05 模型驗(yàn)證及效能評價(jià)
- 診斷方法的鑒別能力(Discrimination):ROC分析、C-Statistics&C-Index
- 診斷方法的準(zhǔn)確性(Calibration analysis) :Calibration plot
- 臨床實(shí)用性(Clinical utility)-DCA :決策曲線
內(nèi)部驗(yàn)證方法包括隨機(jī)拆分驗(yàn)證、交叉驗(yàn)證以及Bootstrap重抽樣;外部驗(yàn)證可采用不同時(shí)間、不同地域、不同時(shí)間及地域的數(shù)據(jù)集。
區(qū)分度(Discrimination)和校準(zhǔn)度(Calibration)是兩個(gè)最常見的模型評價(jià)指標(biāo)。區(qū)分度是指模型區(qū)分是否患有待診斷的疾病(診斷模型)或是否發(fā)生預(yù)期的事件(預(yù)后模型)的能力,最常見的區(qū)分度刻畫指標(biāo)如AUC,或者C統(tǒng)計(jì)量。校準(zhǔn)度則是評估預(yù)測的概率與實(shí)際觀察到的概率的一致性,常見的統(tǒng)計(jì)指標(biāo)是如Brier得分。此外,也有學(xué)者建議用校準(zhǔn)截距(Calibration-in-the-large)、校準(zhǔn)斜率以及決策曲線分析(Decision-curve analysis)來評價(jià)預(yù)測模型 。有時(shí)候,研究者想要比較新開發(fā)的模型對現(xiàn)有模型的改進(jìn),或者關(guān)注單個(gè)預(yù)測因子的預(yù)測效能增加值(Incremental value),此時(shí)用AUC值評價(jià)并不靈敏,推薦的指標(biāo)是綜合區(qū)分改善度(IDI)和凈重分類改善度(NRI)。
關(guān)注R小鹽,關(guān)注科研私家菜(VX_GZH: SciPrivate),有問題請聯(lián)系R小鹽。讓我們一起來學(xué)習(xí) R語言機(jī)器學(xué)習(xí)與臨床預(yù)測模型