p 值與信賴區間:看懂一份研究有沒有「達標」
p 值不是「假設為真的機率」、也不是效果大小。本文白話拆解 p 值、信賴區間、統計顯著與臨床顯著的差別。
先講結論:一份研究有沒有「達標」,不能只看那顆 p 值有沒有小於 0.05。p 值告訴你的事情很有限,而且非常容易被誤讀。要判斷一個結果可不可信、值不值得當回事,你真正該看的是「效果有多大、估得多準」——也就是點估計值與信賴區間——再回頭問一句:這個差距對病人來說有意義嗎?
p 值到底是什麼(以及它不是什麼)
p 值衡量的是:在「假設沒有效果」成立的前提下,看到目前這筆(或更極端的)數據有多不尋常。 美國統計學會(ASA)2016 年的官方聲明把這件事講得很白:p 值可以指出數據與某個特定統計模型有多不相容,但它不衡量「研究的假設為真的機率」,也不衡量「數據純粹由隨機產生的機率」。
兩個最常見的誤解要先戳破:
- p 值不是「假設為真的機率」。 [已知] p 值是個條件機率,前提是「沒有效果」這個假設成立;你不能把它反過來讀成「假設正確的機率有 95%」。這是邏輯上的方向錯誤。
- p 值不是效果大小。 ASA 聲明明白指出:較小的 p 值不代表效果較大或較重要,較大的 p 值也不代表沒效果。樣本一大,連微不足道的差距都能擠出一顆很小的 p 值。
統計顯著 ≠ 臨床顯著
這是識讀研究時最值得記住的一句話。統計顯著只是說「這個差距不太像純粹運氣造成的」;臨床顯著問的是「這個差距大到足以改變治療決策、對病人有實際好處嗎?」
Cochrane 手冊舉的例子很傳神:假設臨床上認為「風險差要到 5% 才算重要」,那麼一個效果估計值只有 2%、信賴區間落在 1% 到 4% 的結果——就算統計上「顯著」、它其實顯示這個介入沒有帶來足夠的健康效益。統計達標、臨床卻不達標,完全可能同時發生。
信賴區間怎麼讀
比起單一 p 值,信賴區間(CI)資訊量大得多。Cochrane 手冊的說法是:點估計值是效果大小與方向的最佳估計,而信賴區間描述了這個估計的不確定性——是「我們有合理把握真實效果會落在其中」的一段範圍。
讀法的關鍵在「無效值」:
- 比值型指標(風險比 RR、勝算比 OR、風險比 HR)的無效值是 1。區間若跨過 1,代表無法排除「沒差別」。
- 差值型指標(風險差、平均差)的無效值是 0。區間若跨過 0,同樣代表未達顯著。
此外,區間的寬窄也在說話:很窄代表估得精準,很寬則代表我們其實所知有限——這是單看「顯著/不顯著」永遠看不出來的。也因此 Cochrane 建議作者別只貼「statistically significant / non-significant」的標籤,而應同時報告信賴區間與確切的 p 值。
p-hacking 與多重比較
[已知] 一次檢定在「其實沒效果」時,仍有約 5% 機率純靠運氣冒出「顯著」。問題是:做越多次比較,至少出現一個假陽性的機率就越高。 在一份數據裡反覆切子群、換變數定義、事後排除受試者、試不同統計法,直到某個分析跨過 p<0.05——這就是 p-hacking。
更微妙的是 Gelman 與 Loken 提出的「分岔路花園」:研究者就算只跑一次、也沒刻意釣,只要分析選擇是「看了數據才決定」的,等同暗中做了很多次比較,照樣會灌水出假陽性。這也是為什麼「預先註冊分析計畫」越來越被重視。
為什麼是 p<0.05
[已知] 0.05 這條線源自統計學家 Fisher 1925 年的著作《Statistical Methods for Research Workers》,是當年手算時代圖個方便、好記(約等於兩個標準差)而定的慣例(這段 p 值與 0.05 門檻的歷史,見前引 Kennedy-Shaffer 2019 的整理)。[推測] 它之所以變成跨學科的鐵則,多半是教科書長年沿用、加上期刊審稿習慣固化的結果,而非有什麼理論證明 0.05 是對的門檻。Fisher 本人對不同情境也用過不同標準。換句話說,0.05 是約定俗成,不是自然定律。
我的觀點
[推測] 把 p<0.05 當成「過關/不過關」的開關,是當代研究最被詬病的壞習慣之一,ASA 的聲明本質上就是在勸大家別這樣做。[已知] 我的具體建議是:看到一份研究,先找效果大小與信賴區間、再問「這個差距在臨床上有意義嗎」,最後才把 p 值當輔助;同時留意作者做了幾次比較、分析是否事先講好。[不知道] 至於某個特定領域該用多嚴的門檻、或該不該全面改用其他統計框架,沒有放諸四海皆準的答案,得看該領域的風險與成本結構。但有一條可以確定:單一一顆 p 值,從來不足以證明任何事。
本文為健康與研究方法資訊整理,協助讀者看懂研究報告,不構成醫療建議,也不能取代臨床判斷。任何治療決策請與你的醫師或合格醫療人員討論;解讀特定研究的統計結果時,建議一併參考原始論文與專業意見。
資料來源
每一則主張都對應到下方原始來源。我們優先採用系統性回顧、臨床指引與隨機對照試驗。
- 1
- 2
- 3
- 4
- 5
常見問題
p 值越小、代表效果越大嗎?
不是。p 值小只代表「數據與『沒有效果』這個假設越不相容」、和效果大小是兩回事。大樣本會讓很小、甚至沒臨床意義的差距也變得統計顯著。要看效果大小、請看點估計值與信賴區間。
p=0.04 就代表假設有 96% 是真的嗎?
[已知] 不是。這是最常見的誤解。p 值是在「假設沒有效果」成立的前提下算出來的條件機率、不能反過來當成「假設為真的機率」。要回答後者需要不同的方法(例如貝氏推論)。
信賴區間跨過 1(或 0)是什麼意思?
代表在 95% 信賴水準下、無法排除「沒有效果」的可能。比值型指標(如風險比、勝算比)的無效值是 1、差值型(如風險差、平均差)的無效值是 0;區間若涵蓋無效值、就對應到未達統計顯著。