經(jīng)典統(tǒng)計(jì)學(xué)的核心思想就是用樣本(我們所能采集到的數(shù)據(jù),如總磷濃度,TP)去估計(jì)總體(關(guān)于總體情況的描述);總體的參數(shù)是未知的,不可測(cè)度或難以測(cè)度,注意它是固定了的數(shù)值;
我們采集了有限的TP,而且在前人研究的基礎(chǔ)上已知一個(gè)生態(tài)系統(tǒng)中TP可以被近似為對(duì)數(shù)正態(tài)分布,那么剩下的工作就是要估計(jì)分布的對(duì)數(shù)均值和對(duì)數(shù)標(biāo)準(zhǔn)差。估計(jì)總體的均值和標(biāo)準(zhǔn)差,最自然的方法就是用樣本的均值和標(biāo)準(zhǔn)差去估計(jì)。
為了估計(jì)這個(gè)總體的參數(shù),我們就要通過(guò)樣本來(lái)構(gòu)造統(tǒng)計(jì)量,注意它是一個(gè)隨機(jī)變量。因?yàn)槲覀儾荒軆H用一次采樣的數(shù)據(jù)來(lái)估計(jì)總體,我們每一次采樣都會(huì)得到一個(gè)均值和標(biāo)準(zhǔn)差。這樣這個(gè)用于估計(jì)的值就是一個(gè)隨機(jī)變量。
隨機(jī)變量的意思是隨著你樣本選取的不同,具體到每一個(gè)樣本的統(tǒng)計(jì)量的統(tǒng)計(jì)值也不盡相同。這個(gè)隨機(jī)變量的統(tǒng)計(jì)值就是對(duì)總體參數(shù)的點(diǎn)估計(jì),由于樣本估計(jì)總體總是會(huì)存在一定的偏差,所以我們?yōu)榱烁玫墓烙?jì)總體參數(shù),于是用到了置信區(qū)間。
95%的置信度的意思是如果你從總體中抽取100個(gè)不同樣本,每個(gè)樣本都用相同的統(tǒng)計(jì)量構(gòu)造的置信區(qū)間(注意:由于樣本不相同,這些置信區(qū)間的范圍也不盡相同),那么有95個(gè)置信區(qū)間包含了總體參數(shù)的真值。換句話說(shuō),95%的置信區(qū)間意味著真值落在區(qū)間內(nèi)的概率是0.95。
最關(guān)鍵的是要理解統(tǒng)計(jì)量是隨機(jī)變量而總體的參數(shù)是一個(gè)實(shí)實(shí)在在的數(shù)值。
置信區(qū)間的計(jì)算在知道方差和不知道方差的情況下,計(jì)算公式是不一樣的。
confint<-function(x,sigma=-1,alpha=0.05)
{
n<-length(x)
xb<-mean(x)
if(sigma>=0)
{
tmp<-sigma/sqrt(n)*qnorm(1-alpha/2);df<-n
}
else{
tmp<-sd(x)/sqrt(n)*qt(1-alpha/2,n-1);df<- n-1
}
data.frame(mean=xb,df=df,a=xb-tmp,b=xb+tmp)
}
---------------------
作者:DawnJobs
來(lái)源:CSDN
原文:https://blog.csdn.net/LittleYearYear/article/details/39940231
版權(quán)聲明:本文為博主原創(chuàng)文章,轉(zhuǎn)載請(qǐng)附上博文鏈接!
如果不知道方差,則confint(x,alpha) 知道方差,則confint(x,sigma,alpha)
思考:置信區(qū)域的形狀如何?置信區(qū)域與假設(shè)檢驗(yàn)有何聯(lián)系?
按照我的簡(jiǎn)要理解,置信橢圓基本上是對(duì)置信區(qū)域的描述方式,其長(zhǎng)軸和短軸分別為置信區(qū)域的參數(shù),置信橢圓的長(zhǎng)短半軸,分別表示二維位置坐標(biāo)分量的標(biāo)準(zhǔn)差(如經(jīng)度的σλ和緯度的σφ)。一倍標(biāo)準(zhǔn)差(1σ)的概率值是68.3%,二倍標(biāo)準(zhǔn)差(2σ)的概率值為95.5%;三倍標(biāo)準(zhǔn)差(3σ)的概率值是99.7%。
μ的置信度為1?α的置信區(qū)域?yàn)?/p>
當(dāng)p=1時(shí),它是一個(gè)區(qū)間;當(dāng)p=2時(shí),它是一個(gè)橢圓,這時(shí)可將其在坐標(biāo)平面上畫(huà)出;當(dāng)p=3時(shí),它是一個(gè)橢球;當(dāng)p>3時(shí),它是一個(gè)超橢球;它們均以 為中心。
同置信區(qū)間與假設(shè)檢驗(yàn)的關(guān)系一樣,置信區(qū)域與假設(shè)檢驗(yàn)之間也有著同樣的密切關(guān)系。一般來(lái)說(shuō),μ0包含在上述置信區(qū)域內(nèi),當(dāng)且僅當(dāng)原假設(shè) H0:μ=μ0在顯著性水平α下被接受。因此,可以通過(guò)構(gòu)造置信區(qū)域的方法來(lái)進(jìn)行假設(shè)檢驗(yàn)。
我們用 rnorm(20, 0.2, 1)來(lái)構(gòu)建TP的濃度,計(jì)算95% 和50% 的置信區(qū)間:
source("D:\\Users\\Administrator\\Desktop\\RStudio\\Environmental_and_Ecological_Statistics_with_R\\DataCode\\Code\\FrontMatter.R")
################
## Chapter 4 ##
################
plotDIRch4 <- paste(plotDIR, "chapter4","figures", sep="/")
if(file_test("-d", plotDIRch4)){cat("plotDIRch3 already exists")}else{dir.create(plotDIRch4,recursive = TRUE)}
y <- rnorm(20, 0.2, 1)
n <- length (y)
y.bar <- mean(y)
se <- sd(y)/sqrt(n)
int.50 <- y.bar + qt(c(0.25, 0.75), df=n-1)*se
int.95 <- y.bar + qt(c(.025, .975), df=n-1)*se
print( c(y.bar, int.95))
[1] -0.09966904 1.99591665 2.40901554
在這個(gè)案例中,我們假設(shè)TP濃度對(duì)數(shù)值的真實(shí)分布是N(2.05,0.34),并且利用計(jì)算機(jī)從這個(gè)分布中采取30個(gè)隨機(jī)數(shù)來(lái)模仿采樣過(guò)程,然后計(jì)算置信區(qū)間。當(dāng)多次重復(fù),我就會(huì)期望區(qū)間會(huì)包含2.05.
n.sims <- 1000
n.size <- 30
inside <- 0
for (i in 1:n.sims){ ## looping through n.sims iterations
y <- rnorm(n.size, mean=2.05, sd=0.34)
## random samples from N(2.05, 0.34)
se <- sd(y)/sqrt(n.size)
int.95 <- mean(y) + qt(c(.025, .975), n.size-1)*se
inside <- inside + sum(int.95[1]<2.05 & int.95[2]>2.05)
}
inside/n.sims ## fraction of times true mean inside int.95
[1] 0.951
模擬中心極限定理
樣本均值的分布是正態(tài)的不論中體的分布是怎樣的
## central limit theorem simulation
two.prob()
central.sim(mux=1, vx=1, n=c(5, 20, 100))
#postscript(file=paste(plotDIR, "cltSims.eps", sep="/"),
# width=4.75, height=3, horizontal=F)
central.sim(mux=1, vx=1, n=c(5, 20, 100))
#dev.off()
以上均是對(duì)均值的推斷,統(tǒng)計(jì)推斷還有第二部分,即是對(duì)標(biāo)準(zhǔn)差的推斷。同樣是用樣本的標(biāo)準(zhǔn)差來(lái)估計(jì)總體的標(biāo)準(zhǔn)差。
通過(guò)對(duì)總體均值和標(biāo)準(zhǔn)差的估計(jì),可以確定模型的參數(shù)。但是,Everglades濕地研究背后的問(wèn)題是要設(shè)定TP的環(huán)境標(biāo)準(zhǔn):使用背景濃度的75百分點(diǎn)作為標(biāo)準(zhǔn)。因此接下來(lái)的問(wèn)題是如何估計(jì)0.75分位數(shù)。如果我們知道總體分布是正態(tài)分布的,且均值和標(biāo)準(zhǔn)差的真值是已知的,那么可以直接估計(jì)0.75分位數(shù)。假設(shè)均值=2.05,標(biāo)準(zhǔn)差=0.34.
qnorm(0.75,mean = 2.05,sd=0.34)
[1] 2.279327
TP濃度分布的0.75分位數(shù)就是=9.77pp。但是,如何描述0.75分位數(shù)的不確定性呢?
n.sims=1000
n<-30
y <- rnorm(20, 0.2, 1)
y.bar<-mean(y)
se<-sd(y)
x<-rchisq(n.sims,df=n-1)
sigma.chi2<-se*sqrt((n-1)/x)
sample.mean<-rnorm(n.sims,y.bar,sigma.chi2/sqrt(n))
q.75<-qnorm(0.75,sample.mean,sigma.chi2)
hist(exp(q.75),axes=F,xlab="0.75 Quantile Distribution")
axis(1)
#從模擬的不確定性給出95%的置信區(qū)間
quantile(exp(q.75),probs = c(0.25,0.975))
25% 97.5%
1.922981 2.949886
參考:
如何理解 95% 置信區(qū)間?
用R語(yǔ)言求置信區(qū)間
基礎(chǔ)知識(shí):置信橢圓confidence ellipse