醫學臨床試驗文獻統計方法解讀（我們需要多少樣本）

三、分析試驗需要多少樣本數據的思路框架

在所有的研究開始之前，我們都面臨這么一個決策。

多少數據才算夠？

顯然，我們做研究的資源（人力、物力、財力和時間等）都是有限的，如果我們想要研究的問題需要的數據量遠遠超出我們的能力范圍，那么我們就面對著一個殘酷的現實：
這個研究還沒有開始，就已經注定失敗了

所以，研究前要對所需的數據量作盡可能準確的估計。

（一）要解決問題：

文獻中的確定樣本統計量的方法如下：“統計功效分析：從我們之前的研究得出，內源性骨質增加的不同分組間的平均值差異為0.8毫米，每一個組別的標準差為1毫米。當我們定義檢測此差異的顯著性水平為0.05，統計功效為0.8時，每一個研究組所需的被試數量至少為20個。
所以，我們需要找到找到文獻中利用統計功效分析計算出所需樣本量的方法。

（二）涉及的基本統計概念

p值、顯著性水平、統計功效、統計效應等概念相互關聯。

p值、顯著性水平α

1.p 值定義：p值是在假定原假設為真時，得到與樣本相同或者更極端的結果的概率。

與樣本相同或者更極端的概率，可以想象正態分布的鐘形曲線，p值代表的是包含樣本值及其右側的尾部區域（意為更極端結果）累計概率值（如為雙側檢驗，則包括左、右兩側的尾部區域）。

2.顯著性水平α定義：試驗中我們要選定一個假設為原假設，另一個作為備擇假設。當原假設為真時而拒絕原假設的事件成為類型1錯誤，發生這種錯誤的概率稱為檢驗的顯著性水平（significance level).

拒絕原假設的檢驗統計量的值集稱為拒絕域，接受原假設的值域稱為接受域。

（1）統計上的顯著性：

在實踐中，以原假設的分布來構造檢驗。
顯著性水平α通常選擇較小的數值，如0.01或0.05.
當樣本值，即檢驗統計量，落在拒絕域中，即發生了概率低于0.05的小概率事件（對應的p值小于0.05），從而反證原假設不成立，更合理的解釋是備擇假設成立。上面的推理過程稱為“統計上的顯著性”。
而當樣本值落在接受域，對應的p值大于0.05，則樣本之間的差異仍在原假設分布內含隨機性的合理范圍之內，根據檢驗統計量不能拒絕原假設。

3.案例

案例請讀博客文章：
[你真的懂p值嗎](https://www.afenxi.com/23239.html）

統計功效

定義：當原假設為假時，接受原假設的事件為類型2錯誤，其概率通常記為β。而當原假設為假時拒絕原假設的概率稱為統計功效（statistical power),為1-β。β的值一般設定為0.2.

統計功效指的就是：如果我們感興趣的效應或差異的確存在，在給定的顯著性水平的規定下，我們能夠正確地拒絕原假設的概率。也就是不犯第二類錯誤的概率。

統計效應

統計效應是我們做試驗要測量的試驗組和控制組之間差異的大小。它是一個抽象的概念，它在數學上到底是什么形式取決于具體的統計測試。

相關分析的效應大小是相關系數
t檢驗的效應大小是均值差與標準差的比值
卡方檢驗的效應大小是OR值（比值比）

效應越大，就越容易在研究中表現出來，亦即所需要的數據量越小，反之亦然。

（三）利用功效分析測算樣本所需統計量的方法

基本原理

統計學家證明，統計功效（1-β）由這些因素決定：標準化的統計效應大小（ES）、樣本量（N）、顯著性水平。
這四個量只要知道其中任意三個，就能求出剩下的一個。因此，如果需要在開展研究之前估計所需的樣本量N，只需知道顯著性水平、1-β和ES，剩下的事情交給計算機軟件就可以完成了（如SAS、SPSS、R等都有利用功效分析來估計數據量的模塊）。
而，顯著性水平、統計功效一般都設定好了。

難點在于標準化的統計效應大小

真實的效應大小在某種意義上說我們是永遠無法知曉的，即使經過了大量研究，我們也只能不斷接近真相。而在功效分析估計數據量時，我們連研究都還沒開始做呢，那怎么估計呢？
最常用的估計效應大小的方法有兩種：

先使用少量受試者或樣本進行試點研究，用獲得的結果作為功效分析中的效應大小的值。這是最直接的估計效應大小的方法。容易想到，試點研究的樣本量越大，研究設計與將來要進行的實驗越接近，對效應大小的估計就會越準確。
如果由于條件限制，無法進行試點研究，我們可以采取“旁敲側擊”的方式——對與計劃進行的研究話題、方向、對象相近的已發表的研究進行全面細致的回顧，合理推算將要進行的研究可能獲得的效應大小。
毫無疑問，這種方式有一個軟肋：已有的研究不可能與我們將要進行的研究完全相同，因此難免會有無法精確控制的偏差；而且，到底哪些研究算“相近”，存在著相當多的模糊性。但是利用相近研究估計效應大小往往能夠綜合來自大量樣本的結果，比起試點研究又有著獨特的優勢。近年來，利用規范、系統化的檢索標準和嚴格定量的統計學方法對大量已發表研究的結果進行整合的“薈萃分析”（meta-analysis，又譯為“元分析”、“整合分析”等）得到了越來越廣泛的應用，它能夠為功效分析提供更準確、更可靠的效應大小估計。

（四）擴展閱讀

本章思路的主要來源：說人話的統計學：做統計，多少數據才算夠？
醫學統計學與 SPSS 軟件（基礎篇）-COURSERA
功效分析-知乎
5分鐘統計學：015假設檢驗、019測量效應與檢驗效能--來自喜馬拉雅聽音頻節目。

最后編輯于：2019.10.04 20:51:00

?著作權歸作者所有,轉載或內容合作請聯系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市，隨后出現的幾起案子，更是在濱河造成了極大的恐慌，老刑警劉巖，帶你破解...
沈念sama閱讀 227,401評論 6贊 531
死咒
序言：濱河連續發生了三起死亡事件，死亡現場離奇詭異，居然都是意外死亡，警方通過查閱死者的電腦和手機，發現死者居然都...
沈念sama閱讀 98,011評論 3贊 413
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人，你說我怎么就攤上這事。” “怎么了？”我有些...
開封第一講書人閱讀 175,263評論 0贊 373
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長。經常有香客問我，道長，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 62,543評論 1贊 307
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮，結果婚禮上，老公的妹妹穿的比我還像新娘。我一直安慰自己，他們只是感情好，可當我...
茶點故事閱讀 71,323評論 6贊 404
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著，像睡著了一般。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發上，一...
開封第一講書人閱讀 54,874評論 1贊 321
城市分裂傳說
那天，我揣著相機與錄音，去河邊找鬼。笑死，一個胖子當著我的面吹牛，可吹牛的內容都是我干的。我是一名探鬼主播，決...
沈念sama閱讀 42,968評論 3贊 439
雙鴛鴦連環套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了？” 一聲冷哼從身側響起，我...
開封第一講書人閱讀 42,095評論 0贊 286
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后，有當地人在樹林里發現了一具尸體，經...
沈念sama閱讀 48,605評論 1贊 331
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內容為張勛視角年9月15日...
茶點故事閱讀 40,551評論 3贊 354
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發現自己被綠了。大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 42,720評論 1贊 369
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖，靈堂內的尸體忽然破棺而出，到底是詐尸還是另有隱情，我是刑警寧澤，帶...
沈念sama閱讀 38,242評論 5贊 355
?日本核電站爆炸內幕
正文年R本政府宣布，位于F島的核電站，受9級特大地震影響，放射性物質發生泄漏。R本人自食惡果不足惜，卻給世界環境...
茶點故事閱讀 43,961評論 3贊 345
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧，春花似錦、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 34,358評論 0贊 25
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至，卻和暖如春，著一層夾襖步出監牢的瞬間，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 35,612評論 1贊 280
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留，地道東北人。一個月前我還...
沈念sama閱讀 51,330評論 3贊 390
代替公主和親
正文我出身青樓，卻偏偏與公主長得像，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當晚...
茶點故事閱讀 47,690評論 2贊 370

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

醫學臨床試驗文獻統計方法解讀（我們需要多少樣本）

醫學臨床試驗文獻統計方法解讀（我們需要多少樣本）

三、分析試驗需要多少樣本數據的思路框架

多少數據才算夠？

所以，研究前要對所需的數據量作盡可能準確的估計。

（一）要解決問題：

（二）涉及的基本統計概念

p值、顯著性水平α

1.p 值定義：p值是在假定原假設為真時，得到與樣本相同或者更極端的結果的概率。

2.顯著性水平α定義：試驗中我們要選定一個假設為原假設，另一個作為備擇假設。當原假設為真時而拒絕原假設的事件成為類型1錯誤，發生這種錯誤的概率稱為檢驗的顯著性水平（significance level).

（1）統計上的顯著性：

3.案例

統計功效

定義：當原假設為假時，接受原假設的事件為類型2錯誤，其概率通常記為β。而當原假設為假時拒絕原假設的概率稱為統計功效（statistical power),為1-β。β的值一般設定為0.2.

統計效應

統計效應是我們做試驗要測量的試驗組和控制組之間差異的大小。它是一個抽象的概念，它在數學上到底是什么形式取決于具體的統計測試。

效應越大，就越容易在研究中表現出來，亦即所需要的數據量越小，反之亦然。

（三）利用功效分析測算樣本所需統計量的方法

基本原理

難點在于標準化的統計效應大小

（四）擴展閱讀

推薦閱讀更多精彩內容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美 国产 综合 欧美 视频

醫學臨床試驗文獻統計方法解讀（我們需要多少樣本）

三、分析試驗需要多少樣本數據的思路框架

多少數據才算夠？

所以，研究前要對所需的數據量作盡可能準確的估計。

（一）要解決問題：

（二）涉及的基本統計概念

p值、顯著性水平α

1.p 值定義：p值是在假定原假設為真時，得到與樣本相同或者更極端的結果的概率。

2.顯著性水平α定義：試驗中我們要選定一個假設為原假設，另一個作為備擇假設。當原假設為真時而拒絕原假設的事件成為類型1錯誤，發生這種錯誤的概率稱為檢驗的顯著性水平（significance level).

（1）統計上的顯著性：

3.案例

統計功效

定義：當原假設為假時，接受原假設的事件為類型2錯誤，其概率通常記為β。而當原假設為假時拒絕原假設的概率稱為統計功效（statistical power),為1-β。β的值一般設定為0.2.

統計效應

統計效應是我們做試驗要測量的試驗組和控制組之間差異的大小。它是一個抽象的概念，它在數學上到底是什么形式取決于具體的統計測試。

效應越大，就越容易在研究中表現出來，亦即所需要的數據量越小，反之亦然。

（三）利用功效分析測算樣本所需統計量的方法

基本原理

難點在于標準化的統計效應大小

（四）擴展閱讀

推薦閱讀更多精彩內容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频