三、分析試驗需要多少樣本數據的思路框架
在所有的研究開始之前,我們都面臨這么一個決策。
多少數據才算夠?
顯然,我們做研究的資源(人力、物力、財力和時間等)都是有限的,如果我們想要研究的問題需要的數據量遠遠超出我們的能力范圍,那么我們就面對著一個殘酷的現實:
這個研究還沒有開始,就已經注定失敗了
所以,研究前要對所需的數據量作盡可能準確的估計。
(一)要解決問題:
文獻中的確定樣本統計量的方法如下:“統計功效分析:從我們之前的研究得出,內源性骨質增加的不同分組間的平均值差異為0.8毫米,每一個組別的標準差為1毫米。當我們定義檢測此差異的顯著性水平為0.05,統計功效為0.8時,每一個研究組所需的被試數量至少為20個。
所以,我們需要找到找到文獻中利用統計功效分析計算出所需樣本量的方法。
(二)涉及的基本統計概念
p值、顯著性水平、統計功效、統計效應等概念相互關聯。
p值、顯著性水平α
1.p 值定義:p值是在假定原假設為真時,得到與樣本相同或者更極端的結果的概率。
與樣本相同或者更極端的概率,可以想象正態分布的鐘形曲線,p值代表的是包含樣本值及其右側的尾部區域(意為更極端結果)累計概率值(如為雙側檢驗,則包括左、右兩側的尾部區域)。
2.顯著性水平α定義:試驗中我們要選定一個假設為原假設,另一個作為備擇假設。當原假設為真時而拒絕原假設的事件成為類型1錯誤,發生這種錯誤的概率稱為檢驗的顯著性水平(significance level).
拒絕原假設的檢驗統計量的值集稱為拒絕域,接受原假設的值域稱為接受域。
(1)統計上的顯著性:
- 在實踐中,以原假設的分布來構造檢驗。
- 顯著性水平α通常選擇較小的數值,如0.01或0.05.
- 當樣本值,即檢驗統計量,落在拒絕域中,即發生了概率低于0.05的小概率事件(對應的p值小于0.05),從而反證原假設不成立,更合理的解釋是備擇假設成立。上面的推理過程稱為“統計上的顯著性”。
- 而當樣本值落在接受域,對應的p值大于0.05,則樣本之間的差異仍在原假設分布內含隨機性的合理范圍之內,根據檢驗統計量不能拒絕原假設。
3.案例
案例請讀博客文章:
[你真的懂p值嗎](https://www.afenxi.com/23239.html)
統計功效
定義:當原假設為假時,接受原假設的事件為類型2錯誤,其概率通常記為β。而當原假設為假時拒絕原假設的概率稱為統計功效(statistical power),為1-β。β的值一般設定為0.2.
統計功效指的就是:如果我們感興趣的效應或差異的確存在,在給定的顯著性水平的規定下,我們能夠正確地拒絕原假設的概率。也就是不犯第二類錯誤的概率。
統計效應
統計效應是我們做試驗要測量的試驗組和控制組之間差異的大小。它是一個抽象的概念,它在數學上到底是什么形式取決于具體的統計測試。
- 相關分析的效應大小是相關系數
- t檢驗的效應大小是均值差與標準差的比值
- 卡方檢驗的效應大小是OR值(比值比)
效應越大,就越容易在研究中表現出來,亦即所需要的數據量越小,反之亦然。
(三)利用功效分析測算樣本所需統計量的方法
基本原理
統計學家證明,統計功效(1-β)由這些因素決定:標準化的統計效應大小(ES)、樣本量(N)、顯著性水平。
這四個量只要知道其中任意三個,就能求出剩下的一個。因此,如果需要在開展研究之前估計所需的樣本量N,只需知道顯著性水平、1-β和ES,剩下的事情交給計算機軟件就可以完成了(如SAS、SPSS、R等都有利用功效分析來估計數據量的模塊)。
而,顯著性水平、統計功效一般都設定好了。
難點在于標準化的統計效應大小
真實的效應大小在某種意義上說我們是永遠無法知曉的,即使經過了大量研究,我們也只能不斷接近真相。而在功效分析估計數據量時,我們連研究都還沒開始做呢,那怎么估計呢?
最常用的估計效應大小的方法有兩種:
- 先使用少量受試者或樣本進行試點研究,用獲得的結果作為功效分析中的效應大小的值。這是最直接的估計效應大小的方法。容易想到,試點研究的樣本量越大,研究設計與將來要進行的實驗越接近,對效應大小的估計就會越準確。
- 如果由于條件限制,無法進行試點研究,我們可以采取“旁敲側擊”的方式——對與計劃進行的研究話題、方向、對象相近的已發表的研究進行全面細致的回顧,合理推算將要進行的研究可能獲得的效應大小。
毫無疑問,這種方式有一個軟肋:已有的研究不可能與我們將要進行的研究完全相同,因此難免會有無法精確控制的偏差;而且,到底哪些研究算“相近”,存在著相當多的模糊性。但是利用相近研究估計效應大小往往能夠綜合來自大量樣本的結果,比起試點研究又有著獨特的優勢。近年來,利用規范、系統化的檢索標準和嚴格定量的統計學方法對大量已發表研究的結果進行整合的“薈萃分析”(meta-analysis,又譯為“元分析”、“整合分析”等)得到了越來越廣泛的應用,它能夠為功效分析提供更準確、更可靠的效應大小估計。
(四)擴展閱讀
- 本章思路的主要來源:說人話的統計學:做統計,多少數據才算夠?
- 醫學統計學與 SPSS 軟件(基礎篇)-COURSERA
- 功效分析-知乎
- 5分鐘統計學:015假設檢驗、019測量效應與檢驗效能--來自喜馬拉雅聽音頻節目。