某化學(xué)藥品公司的研究人員研究了藥片表面積和體積對(duì)藥品在釋放劑量控制中釋放速度的作用(Drug?Development and Industrial pharmacy, Vol.?28, 2002),準(zhǔn)備了6個(gè)形狀相似具有不同重量和厚度的藥片,測(cè)量了每個(gè)藥片的表面積與體積的比,利用溶解設(shè)備,每個(gè)藥片放在900ml去離子水中,確定滲濾藥品釋放速度(藥品釋放啊的百分比除以時(shí)間平方根),試驗(yàn)數(shù)據(jù)在下表中列出:
從以上數(shù)據(jù)中,您可以得出什么有用的結(jié)論呢?當(dāng)表面積/體積=1.2時(shí),藥片釋放速度大概是多少?
一、圖形化探索——散點(diǎn)圖
上述案例中,兩個(gè)變量都是數(shù)值型變量,同時(shí),我們希望尋找兩個(gè)變量之間的相互關(guān)系,因此,通過散點(diǎn)圖來觀察兩個(gè)變量的關(guān)系是再恰當(dāng)不過的選擇了。
通過可視化工具我們得到下圖,從圖中我們可以明顯的看出,藥品釋放速度與藥片表面積/體積呈現(xiàn)明顯的線性正相關(guān)關(guān)系,也就是說,隨著表面積/體積的增加,藥片釋放速度呈增加趨勢(shì)。
可視化在數(shù)據(jù)分析中的重要性不言而喻,尤其是在演示中扮演著舉足輕重的角色,但是圖形的缺點(diǎn)也非常明顯:
(1)無法量化變量之間的相關(guān)關(guān)系;
(2)無法進(jìn)行預(yù)測(cè),而回歸的主要目的就是為了進(jìn)行預(yù)測(cè)。
所以,以上的分析只是線性回歸分析最初始的步驟,它可以幫助我們理解數(shù)據(jù)之間的關(guān)系。接下來,我們將主要討論如何量化變量之間的相關(guān)關(guān)系,如何通過最小二乘法獲取回歸方程的最優(yōu)參數(shù),如何檢驗(yàn)?zāi)P偷娘@著性,以及非常重要的殘差診斷,和如何進(jìn)行預(yù)測(cè),包括預(yù)測(cè)的陷阱等。
二、它們相關(guān)嗎?相關(guān)關(guān)系未必是因果關(guān)系?
對(duì)于兩個(gè)變量相關(guān)關(guān)系的量化,著名統(tǒng)計(jì)學(xué)家卡爾·皮爾遜曾給出了以下關(guān)于相關(guān)系數(shù)的數(shù)學(xué)定義,根據(jù)他的定義:
(1)當(dāng)r的值越趨近于1或-1時(shí),兩個(gè)變量的線性關(guān)系越強(qiáng);
(2)當(dāng)r的值越趨近于0,兩個(gè)變量的線性關(guān)系越弱;
(3)而當(dāng)r值正好為1或-1時(shí),則表明所有的點(diǎn)都精確地落在一條直線上。
然而,通過相關(guān)系數(shù)的數(shù)學(xué)公式來理解相關(guān)關(guān)系非常地不直觀,所以,這里通過引用向量概念來更直觀地解釋兩個(gè)變量的相關(guān)關(guān)系,如下圖,以向量空間為例,向量
和向量
之間的夾角的余弦值可以通過以下公式獲得(同樣,在
空間,以下公式也適用):
由此可見,當(dāng)兩個(gè)變量的相關(guān)系數(shù)越趨近于1時(shí),也就意味著向量之間的夾角越接近于0°,而當(dāng)其越趨近于-1時(shí),則意味著向量之間的夾角越接近于180°,而當(dāng)變量之間的相關(guān)系數(shù)越趨近于0時(shí),則意味著向量之間的夾角越接近于90°,也就是說兩個(gè)向量之間線性無關(guān)。
依據(jù)以上的相關(guān)系數(shù)的公式,我們可以求得本案例中藥片釋放速度和藥片表面積/體積的相關(guān)系數(shù)為:
由此可見,兩個(gè)變量線性相關(guān)性很強(qiáng)。
但是,這里面有一點(diǎn)需要提醒大家,兩個(gè)變量之間雖然存在很強(qiáng)的相關(guān)關(guān)系,但是,這并不意味著一個(gè)變量會(huì)影響另一個(gè)變量,更不能說明兩者之間存在因果關(guān)系,這僅僅揭示了兩個(gè)變量之間存在某種數(shù)學(xué)關(guān)系,而至于兩個(gè)變量之間是否存在因果關(guān)系,則需要研究者根據(jù)自身的經(jīng)驗(yàn)來進(jìn)行判定。
三、為何最小二乘法?——高斯的谷神星軌道計(jì)算
在通過散點(diǎn)圖和相關(guān)系數(shù)明確了兩個(gè)變量之間存在很強(qiáng)的線性關(guān)系后,我們還需要進(jìn)行線性回歸,才可以更加明確地揭露變量之間的對(duì)應(yīng)關(guān)系,這樣做的目的是為了后面進(jìn)行預(yù)測(cè)服務(wù),為此我們假設(shè)變量和
之間存在以下線性關(guān)系:
接下來,需要通過已收集到的數(shù)據(jù)來估測(cè)出最佳的和
,以使得誤差平方和取最小值:
以上就是數(shù)學(xué)史上聞名遐邇的最小二乘法,談起最小二乘法,需要追溯到1801年,當(dāng)時(shí),意大利天文學(xué)家G. Piazzi發(fā)現(xiàn)了谷神星,他在6個(gè)星期中跟蹤這顆小行星,但由于太陽的干擾,這顆小行星突然不見了,很多著名的天文學(xué)家都發(fā)表了文章,預(yù)測(cè)谷神星的軌道,高斯也發(fā)表了一個(gè)預(yù)測(cè),但是他預(yù)測(cè)的軌道和其他人有相當(dāng)大的差異,此后,谷神星在1801年12月7日被一個(gè)觀測(cè)者再度發(fā)現(xiàn),并在1802年1月1日又被另一個(gè)觀測(cè)者發(fā)現(xiàn),這兩個(gè)情況均和高斯預(yù)測(cè)的位置十分接近,高斯立刻在天文學(xué)界贏得了威望,并在一段時(shí)間內(nèi),被公認(rèn)為是知名的天文學(xué)家而不是數(shù)學(xué)家,它成功的關(guān)鍵就在于使用了最小二乘法。自此以后,最小二乘法在各個(gè)行業(yè)領(lǐng)域都得到了廣泛的應(yīng)用。
對(duì)和
的估測(cè),學(xué)術(shù)界存在多種方法,但是都殊途同歸,最多見的是通過將殘差平方和分別對(duì)
和
求偏導(dǎo)數(shù),并使之等于0,通過解方程以求得
和
,此外,也有通過求解超定方程組的方法獲得
和
的估測(cè),并且可以給出非常直觀的幾何解釋,此外,也有通過最大似然法來推斷
和
的做法。這里我們僅僅給出通過求偏導(dǎo)數(shù)來估測(cè)
和
的方法:
通過求解上述方程組可以得到:
依據(jù)上述公式,我們求得本案例的回歸方程為:
四、回歸方程顯著性檢驗(yàn)——決定系數(shù)與相關(guān)系數(shù)
到這里,我們已經(jīng)知道了本案例兩個(gè)變量之間具有很強(qiáng)的線性關(guān)系,同時(shí),我們也通過最小二乘法估測(cè)了回歸方程的參數(shù),但是,我們還需要對(duì)回歸方程的顯著性進(jìn)行檢驗(yàn),而回歸方程顯著性的檢驗(yàn)實(shí)際上是一個(gè)方差分析的過程,其基本原理是,觀測(cè)值的變異性(稱為總離差平方和,記為
)可以分解為兩個(gè)部分:
(1)由于和
之間存在線性關(guān)系,
的變化會(huì)引起
的變化,這種變化可以用回歸線上擬合點(diǎn)的波動(dòng)加以解釋,稱為回歸平方和,記為
;
(2)的觀測(cè)值與回歸線上擬合點(diǎn)的差異是由于隨機(jī)誤差導(dǎo)致的,稱為殘差平方和,記為
。
因此,如果遠(yuǎn)大于
,則說明回歸方程有效,否則,就認(rèn)為回歸方程無效。
根據(jù)上述原理,我們從以下恒等式出發(fā),給出以下推導(dǎo)過程:
最后給出回歸顯著性檢驗(yàn)的方差分析如下表:
對(duì)于本案例,根據(jù)查F分布的分位數(shù)表可得,當(dāng)α=0.01、分子自由度
、分母自由度時(shí)
,
,由于
,因此,可以認(rèn)為該回歸方程有效。
此外,為了度量回歸效果的好壞,還有一個(gè)重要的統(tǒng)計(jì)指標(biāo):決定系數(shù),它的含義是回歸方程解釋觀測(cè)數(shù)據(jù)變異的能力,其計(jì)算公式如下:
對(duì)于本案例,我們可以得出:
但是,從的定義可以看出,當(dāng)多一個(gè)自變量加入模型中,不管這個(gè)變量影響是否顯著,回歸平方和都會(huì)增加,因此
也會(huì)增大,因此,從
看不出新增加的自變量是否有意義,所以統(tǒng)計(jì)學(xué)家提出了
,它把殘差平方和
和總離差平方和
的自由度考慮在公式里,這樣就使得系數(shù)的評(píng)估更加公正客觀。
需要注意的是,大家可能已經(jīng)發(fā)現(xiàn),本案例中決定系數(shù)和相關(guān)系數(shù)正好相等(),但并不能就此將決定系數(shù)和相關(guān)系數(shù)當(dāng)作同一個(gè)概念,這個(gè)相等只發(fā)生在一元線性回歸中,因此,在解讀時(shí)需要加以注意,決定系數(shù)是度量回歸方程解釋觀測(cè)數(shù)據(jù)變異的能力,而相關(guān)系數(shù)是度量兩個(gè)變量之間相關(guān)關(guān)系的統(tǒng)計(jì)量。
五、殘差診斷——安斯庫姆的忠告
1973年,統(tǒng)計(jì)學(xué)家F.J.Anscombe曾構(gòu)造了以下四組奇特的數(shù)據(jù)集(如表4),我們可以通過上述的線性回歸的方法對(duì)這個(gè)數(shù)據(jù)集進(jìn)行回歸,我們驚奇地發(fā)現(xiàn)了所有四組數(shù)據(jù)的基本統(tǒng)計(jì)量和回歸參數(shù)等都驚奇地相似(如表5),那么是不是這四組變量中的和
之間都具有線性相關(guān)關(guān)系呢?答案是否定的,實(shí)際上,F(xiàn).J.Anscombe構(gòu)造這組數(shù)據(jù)集的目的就是提醒人們,單純地通過統(tǒng)計(jì)量來進(jìn)行判斷是不可靠的,確認(rèn)變量之間的關(guān)系需要借助可視化工具來輔助判斷,否則很可能會(huì)得出荒唐的結(jié)論。
因此,為了更好地展示這四組數(shù)據(jù)的關(guān)系,我們給出了它們的散點(diǎn)圖(如圖2),從圖形中可以看出,除了第一組變量之間存在線性關(guān)系外,其余幾組變量的線性關(guān)系都不明顯,尤其是第三組和第四組變量都存在較為明顯的異常值現(xiàn)象,需要特別注意。
F.J.Anscombe數(shù)據(jù)集給我們的啟示是,判斷兩個(gè)或者多個(gè)變量之間的關(guān)系需要借助可視化來進(jìn)行確認(rèn),而殘差診斷則是線性回歸中非常必要的一個(gè)可視化判斷的步驟,如果殘差分布具有某種特殊的形狀,不夠隨機(jī)的話,可能模型就不是很成功,需要對(duì)回歸方程做一些調(diào)整,比如殘差對(duì)于擬合值有類似圖4-(3)的喇叭口形狀,這時(shí)建議對(duì)取平方根、取倒數(shù)或者取對(duì)數(shù)來嘗試解決。如果殘差對(duì)于自變量的散點(diǎn)圖出現(xiàn)類似圖4-(2)的彎曲情況,這時(shí)建議在模型中添加
的平方項(xiàng)等等。
通常而言,殘差診斷包括以下四個(gè)部分的診斷:
(1)殘差對(duì)于觀測(cè)順序的散點(diǎn)圖;
(2)殘差對(duì)于擬合值的散點(diǎn)圖;
(3)殘差的正態(tài)概率圖;
(4)殘差對(duì)于各自變量的散點(diǎn)圖。
由此,可以看出,本案例的殘差無任何異常,并且殘差分布也是正態(tài)的,模型可以用于進(jìn)行下一步的預(yù)測(cè)。
六、預(yù)測(cè)的陷阱——沒有調(diào)查沒有發(fā)言權(quán)
建立回歸模型最主要的目的是為了進(jìn)行預(yù)測(cè),但是僅僅給出一個(gè)確定并不是一個(gè)嚴(yán)謹(jǐn)?shù)念A(yù)測(cè),很多時(shí)候,我們希望得到結(jié)果是這個(gè)值有多大概率處于某個(gè)區(qū)間內(nèi),因此,統(tǒng)計(jì)學(xué)上通過嚴(yán)謹(jǐn)?shù)臄?shù)學(xué)推導(dǎo)給出了以下兩個(gè)區(qū)間估計(jì),其中第一個(gè)式子是對(duì)于響應(yīng)變量均值的100×(1-α)%的置信區(qū)間估計(jì),而第二個(gè)式子是新觀測(cè)值的100×(1-α)%預(yù)測(cè)區(qū)間,很顯然地可以看出,均值的區(qū)間估計(jì)要比單值的區(qū)間估計(jì)要窄一些。
在預(yù)測(cè)階段,經(jīng)常性會(huì)落入一個(gè)陷阱,比如我們的回歸模型是建立在的區(qū)間內(nèi)的,但是現(xiàn)在需要預(yù)測(cè)
時(shí)
的值,可是我們知道
,那么此時(shí)是否可以用上述方法來進(jìn)行預(yù)測(cè)呢?這是一個(gè)非常嚴(yán)重的錯(cuò)誤,因?yàn)槲覀兦懊娴贸龅幕貧w模型并沒有在這個(gè)區(qū)域內(nèi)有觀測(cè)點(diǎn),所以,根本無從知曉現(xiàn)有模型是否在這個(gè)區(qū)域依然適用,因此,強(qiáng)烈不建議做超出觀測(cè)范圍的預(yù)測(cè)推斷。
對(duì)于本案例,假設(shè)α=0.05,當(dāng)表面積/體積=1.2時(shí),我們可以得出藥片釋放速度的區(qū)間估計(jì)如下:
七、線性回歸在工業(yè)現(xiàn)場(chǎng)的應(yīng)用場(chǎng)景介紹
以上通過醫(yī)藥研發(fā)當(dāng)中一個(gè)案例對(duì)一元線性回歸進(jìn)行了簡單的介紹,而在實(shí)際工作中,大部分響應(yīng)變量很多時(shí)候會(huì)受多個(gè)因子的影響,對(duì)于多元線性回歸,其基本思路和分析步驟與一元線性回歸類似。同時(shí),也有很多時(shí)候,通過殘差分析我們發(fā)現(xiàn)殘差與因子之間存在彎曲現(xiàn)象,這時(shí)候需要加入因子的高階項(xiàng),甚至?xí)霈F(xiàn)因子之間存在強(qiáng)烈的交互作用,這時(shí)候就需要在回歸模型中加入類似項(xiàng),甚至,在一些化工領(lǐng)域三傳一反的模型中需要加入指數(shù)函數(shù),使得模型方程不具有線性特征,如:
此時(shí),我們只要通過簡單的變換就可以將問題轉(zhuǎn)化為線性回歸的問題,如對(duì)于第一個(gè)回歸方程,我們可以將諸如的高階項(xiàng)當(dāng)作一個(gè)新的自變量即可,對(duì)于第二個(gè)式子,我們可以對(duì)兩邊取對(duì)數(shù),對(duì)
進(jìn)行變換就可以簡化為線性回歸的問題。
線性回歸在工業(yè)現(xiàn)場(chǎng)應(yīng)用案例非常之多,無論是在生產(chǎn)、運(yùn)營或者研發(fā)等場(chǎng)景中,都有非常多的應(yīng)用,如化工工藝參數(shù)設(shè)定對(duì)收率的影響,配方對(duì)產(chǎn)品性能指標(biāo)的影響,廣告費(fèi)用對(duì)銷售收入的影響,不同產(chǎn)線產(chǎn)量與總生產(chǎn)能耗的關(guān)系等等,此外,線性回歸模型在化學(xué)分析、化工裝置設(shè)計(jì)等各個(gè)場(chǎng)景也有非常多的應(yīng)用。
參考文獻(xiàn):
[1].《統(tǒng)計(jì)學(xué)》,[美]William M. Mendenhall等著
[2].《線性回歸分析導(dǎo)論》,[美]Douglas C. Montgomery等著
[3].《深入淺出統(tǒng)計(jì)學(xué)》,[美]Dawn Griffiths著
[4].《線性代數(shù)》,[美]Steven J. Leon著
[5].《六西格瑪管理統(tǒng)計(jì)指南》,馬逢時(shí)等著