文章

p 值與信賴區間：看懂一份研究有沒有「達標」

Creator: 實證庫編輯部
Published: 2026-06-14T00:00:00.000Z

p 值不是「假設為真的機率」、也不是效果大小。本文白話拆解 p 值、信賴區間、統計顯著與臨床顯著的差別。

實證庫編輯部 · 內容審閱 2026年6月14日發布 · 約 4 分鐘

證據等級：專家意見 / 共識 — 經驗判斷，證據強度較低

先講結論：一份研究有沒有「達標」，不能只看那顆 p 值有沒有小於 0.05。p 值告訴你的事情很有限，而且非常容易被誤讀。要判斷一個結果可不可信、值不值得當回事，你真正該看的是「效果有多大、估得多準」——也就是點估計值與信賴區間——再回頭問一句：這個差距對病人來說有意義嗎？

p 值到底是什麼（以及它不是什麼）

p 值衡量的是：在「假設沒有效果」成立的前提下，看到目前這筆（或更極端的）數據有多不尋常。 美國統計學會（ASA）2016 年的官方聲明把這件事講得很白：p 值可以指出數據與某個特定統計模型有多不相容，但它不衡量「研究的假設為真的機率」，也不衡量「數據純粹由隨機產生的機率」。

兩個最常見的誤解要先戳破：

p 值不是「假設為真的機率」。 [已知] p 值是個條件機率，前提是「沒有效果」這個假設成立；你不能把它反過來讀成「假設正確的機率有 95%」。這是邏輯上的方向錯誤。
p 值不是效果大小。 ASA 聲明明白指出：較小的 p 值不代表效果較大或較重要，較大的 p 值也不代表沒效果。樣本一大，連微不足道的差距都能擠出一顆很小的 p 值。

統計顯著 ≠ 臨床顯著

這是識讀研究時最值得記住的一句話。統計顯著只是說「這個差距不太像純粹運氣造成的」；臨床顯著問的是「這個差距大到足以改變治療決策、對病人有實際好處嗎？」

Cochrane 手冊舉的例子很傳神：假設臨床上認為「風險差要到 5% 才算重要」，那麼一個效果估計值只有 2%、信賴區間落在 1% 到 4% 的結果——就算統計上「顯著」、它其實顯示這個介入沒有帶來足夠的健康效益。統計達標、臨床卻不達標，完全可能同時發生。

信賴區間怎麼讀

比起單一 p 值，信賴區間（CI）資訊量大得多。Cochrane 手冊的說法是：點估計值是效果大小與方向的最佳估計，而信賴區間描述了這個估計的不確定性——是「我們有合理把握真實效果會落在其中」的一段範圍。

讀法的關鍵在「無效值」：

比值型指標（風險比 RR、勝算比 OR、風險比 HR）的無效值是 1。區間若跨過 1，代表無法排除「沒差別」。
差值型指標（風險差、平均差）的無效值是 0。區間若跨過 0，同樣代表未達顯著。

此外，區間的寬窄也在說話：很窄代表估得精準，很寬則代表我們其實所知有限——這是單看「顯著/不顯著」永遠看不出來的。也因此 Cochrane 建議作者別只貼「statistically significant / non-significant」的標籤，而應同時報告信賴區間與確切的 p 值。

p-hacking 與多重比較

[已知] 一次檢定在「其實沒效果」時，仍有約 5% 機率純靠運氣冒出「顯著」。問題是：做越多次比較，至少出現一個假陽性的機率就越高。 在一份數據裡反覆切子群、換變數定義、事後排除受試者、試不同統計法，直到某個分析跨過 p<0.05——這就是 p-hacking。

更微妙的是 Gelman 與 Loken 提出的「分岔路花園」：研究者就算只跑一次、也沒刻意釣，只要分析選擇是「看了數據才決定」的，等同暗中做了很多次比較，照樣會灌水出假陽性。這也是為什麼「預先註冊分析計畫」越來越被重視。

為什麼是 p<0.05

[已知] 0.05 這條線源自統計學家 Fisher 1925 年的著作《Statistical Methods for Research Workers》，是當年手算時代圖個方便、好記（約等於兩個標準差）而定的慣例（這段 p 值與 0.05 門檻的歷史，見前引 Kennedy-Shaffer 2019 的整理）。[推測] 它之所以變成跨學科的鐵則，多半是教科書長年沿用、加上期刊審稿習慣固化的結果，而非有什麼理論證明 0.05 是對的門檻。Fisher 本人對不同情境也用過不同標準。換句話說，0.05 是約定俗成，不是自然定律。

我的觀點

[推測] 把 p<0.05 當成「過關/不過關」的開關，是當代研究最被詬病的壞習慣之一，ASA 的聲明本質上就是在勸大家別這樣做。[已知] 我的具體建議是：看到一份研究，先找效果大小與信賴區間、再問「這個差距在臨床上有意義嗎」，最後才把 p 值當輔助；同時留意作者做了幾次比較、分析是否事先講好。[不知道] 至於某個特定領域該用多嚴的門檻、或該不該全面改用其他統計框架，沒有放諸四海皆準的答案，得看該領域的風險與成本結構。但有一條可以確定：單一一顆 p 值，從來不足以證明任何事。

本文為健康與研究方法資訊整理，協助讀者看懂研究報告，不構成醫療建議，也不能取代臨床判斷。任何治療決策請與你的醫師或合格醫療人員討論；解讀特定研究的統計結果時，建議一併參考原始論文與專業意見。

資料來源

每一則主張都對應到下方原始來源。我們優先採用系統性回顧、臨床指引與隨機對照試驗。

1
The ASA Statement on p-Values: Context, Process, and Purpose
American Statistical Association / The American Statistician· 2016專家意見 / 共識查證於 2026年6月14日
2
Chapter 15: Interpreting results and drawing conclusions
Cochrane Handbook for Systematic Reviews of Interventions· 2024臨床指引 / 系統性回顧查證於 2026年6月14日
3
Chapter 6: Choosing effect measures and computing estimates of effect
Cochrane Handbook for Systematic Reviews of Interventions· 2024臨床指引 / 系統性回顧查證於 2026年6月14日
4
Before p < 0.05 to Beyond p < 0.05: Using History to Contextualize p-Values and Significance Testing
The American Statistician· 2019專家意見 / 共識查證於 2026年6月14日
5
The garden of forking paths: Why multiple comparisons can be a problem
Columbia University (Gelman & Loken)· 2013專家意見 / 共識查證於 2026年6月14日

常見問題

p 值越小、代表效果越大嗎？

不是。p 值小只代表「數據與『沒有效果』這個假設越不相容」、和效果大小是兩回事。大樣本會讓很小、甚至沒臨床意義的差距也變得統計顯著。要看效果大小、請看點估計值與信賴區間。

p=0.04 就代表假設有 96% 是真的嗎？

[已知] 不是。這是最常見的誤解。p 值是在「假設沒有效果」成立的前提下算出來的條件機率、不能反過來當成「假設為真的機率」。要回答後者需要不同的方法（例如貝氏推論）。

信賴區間跨過 1（或 0）是什麼意思？

代表在 95% 信賴水準下、無法排除「沒有效果」的可能。比值型指標（如風險比、勝算比）的無效值是 1、差值型（如風險差、平均差）的無效值是 0；區間若涵蓋無效值、就對應到未達統計顯著。

#統計識讀 #p值 #信賴區間 #研究方法 #實證醫學

p 值到底是什麼（以及它不是什麼）

統計顯著 ≠ 臨床顯著

信賴區間怎麼讀

p-hacking 與多重比較

為什麼是 p<0.05

我的觀點

資料來源

常見問題

繼續閱讀

發表偏差：為什麼「沒效果」的研究你常常看不到

系統性回顧與統合分析：證據金字塔的頂端，以及它何時會出錯

為什麼保健品總「感覺有效」？認識安慰劑效應