文章

效應大小：「有顯著差異」不等於「差很多」

Creator: 實證庫編輯部
Published: 2026-06-14T00:00:00.000Z

顯著回答「像不像隨機」、效應大小回答「到底差多少」。大樣本連微小差距都能顯著，看到顯著先追問效應多大。

實證庫編輯部 · 內容審閱 2026年6月14日發布 · 約 4 分鐘

證據等級：專家意見 / 共識 — 經驗判斷，證據強度較低

先講結論：看到一份研究說「有顯著差異」，先別急著想成「差很多、很重要」。統計顯著與效應大小回答的是兩個完全不同的問題。 顯著問的是「這個差距像不像隨機造成的」；效應大小（effect size）問的是「差距到底有多大」。兩者可以脫鉤——尤其當樣本很大時，一個小到沒人在乎的差異，照樣能擠出「顯著」的結果。

顯著與效應大小，問的是不同問題

統計顯著（statistically significant）衡量的是：在「假設沒有效果」的前提下，看到目前這筆數據有多不尋常。它本質上是「這像不像運氣」的問題。

效應大小則是直接量「差距有多大」。Sullivan 與 Feinn 在《Journal of Graduate Medical Education》（2012）那篇〈Using Effect Size—or Why the P Value Is Not Enough〉講得很直白：效應大小衡量的是治療效果的幅度（magnitude），而統計顯著檢驗的是「這個發現有多可能只是機運造成的」。一個告訴你「有沒有」，一個告訴你「有多少」——它們不能互相取代。

為什麼「大樣本」會讓小差異也變顯著

這是整件事最關鍵的機制。統計顯著高度受樣本大小左右。 樣本越大，估計越精準，連微不足道的差距都能跨過顯著的門檻；反過來，樣本太小時，就算真實效果存在且重要，也可能因為估不準而「沒達顯著」、被漏掉。

換句話說，「達到 p<0.05」混合了「效果真的大」和「樣本真的多」兩種可能——光看顯不顯著，分不出是哪一種。這正是為什麼 Sullivan 與 Feinn 主張：p 值不夠，必須同時報告效應大小，讓「有沒有意義」不再被樣本數綁架。

常見的效應大小指標

效應大小不是單一一個數字，而是一整類指標。依結果型態挑用：

平均差（MD, mean difference）：兩組平均值的絕對差。Cochrane 手冊的定義是，它估計「實驗介入相較對照，平均把結果改變了多少」——前提是兩組用同一個量尺、同一個單位。
標準化平均差（SMD, standardized mean difference／即社會科學的 Cohen d）：當各研究「測同一個結果、卻用不同量表」時（例如都測憂鬱、但量表不同），就把差距換算成「相對於該研究內變異的倍數」來比較。Cochrane 手冊明說，SMD「以各研究內觀察到的參與者間變異為基準，表達介入效果的大小」，且 Cochrane 採用的版本就是社會科學裡的 Hedges’（校正）g。（補充：Cochrane 建議在系統性回顧裡用「SMD」一詞、而非籠統的「effect size」，以免和醫學上泛指介入效果的用法混淆。）
比值與差值型：二分型結果（發生／沒發生）用風險比（RR）、勝算比（OR）、風險差（RD）。Cochrane 手冊把它們分別定義為「兩組事件風險之比」「兩組勝算之比」「兩組觀察到風險之差」。
相關係數：描述兩個變數一起變動的強度與方向。

挑哪個指標取決於資料型態；但它們的共同任務一樣——回答「差距多大」，而非「像不像隨機」。

多大才算「有意義」？小心通用門檻

很多人想要一張對照表。Cohen 確實提過概略參考：SMD 的 0.2 算小效果、0.5 算中、0.8 算大——Cochrane 手冊第 15 章也引了這組數字。但它同一段話立刻警告：這類詮釋有問題，因為「一個發現對病人重不重要是隨情境而定的，無法用通則一概而論」。

更根本的是「統計顯著 ≠ 臨床顯著」。Cochrane 手冊把這點講得很清楚：「P 值處理的是介入效果是否恰好為零這個問題；它並不檢驗效果的幅度，對接受介入的人來說是否重要。」手冊給了一個具體例子：若臨床上認為「風險差要到 5% 才算重要」，那麼一個估計值只有 2%、信賴區間落在 1% 到 4% 的結果——就算統計上顯著（區間不跨 0），它其實顯示這個介入沒有帶來足夠的淨健康效益。也因此手冊建議作者「不要把結果描述成『統計顯著』或『不顯著』、也不要過度依賴 P 值門檻，而應一併報告信賴區間與確切的 P 值」。

我的觀點

[已知] 顯著與效應大小是兩個獨立的問題，這不是學派之爭，是定義使然：一個量「像不像運氣」，一個量「有多大」。[推測] 我認為大眾最容易踩的坑，是把新聞裡的「達到顯著差異」自動讀成「效果很強、值得改變行為」——而報導往往只給前者、藏起後者。最務實的防身術只有一句：看到「顯著」，先追問兩件事——效應多大？這個幅度對我（或對病人）有沒有實際意義？ 能同時給出效應大小與信賴區間的研究，遠比只丟一個「顯著」標籤的可信。（這和站內〈p 值與信賴區間〉、〈相對風險 vs 絕對風險〉是同一個精神。）[不知道] 至於特定情境下「多大才夠重要」，沒有放諸四海的答案，得由該領域事先定義「最小重要差異」來判斷。

本文為健康與研究方法資訊整理，協助讀者看懂研究報告，不構成醫療建議，也不能取代臨床判斷。任何治療決策請與你的醫師或合格醫療人員討論；解讀特定研究的效應大小與其臨床意義時，建議一併參考原始論文與專業意見。

資料來源

每一則主張都對應到下方原始來源。我們優先採用系統性回顧、臨床指引與隨機對照試驗。

1
Chapter 6: Choosing effect measures and computing estimates of effect
Cochrane Handbook for Systematic Reviews of Interventions· 2024專家意見 / 共識查證於 2026年6月14日
2
Chapter 15: Interpreting results and drawing conclusions
Cochrane Handbook for Systematic Reviews of Interventions· 2024專家意見 / 共識查證於 2026年6月14日
3
Using Effect Size—or Why the P Value Is Not Enough
Journal of Graduate Medical Education (Sullivan & Feinn)· 2012專家意見 / 共識查證於 2026年6月14日

常見問題

「達到統計顯著」是不是就代表效果很大、很重要？

不是。統計顯著只說「這個差距不太像純運氣造成的」，沒說差距有多大。只要樣本夠大，連小到沒有實際意義的差異也能變得顯著。要判斷重不重要，得看效應大小與信賴區間，再問這個幅度對病人是否有意義。

效應大小有哪些常見指標？

連續型結果常用平均差（MD，同一量尺下的絕對差）與標準化平均差（SMD／Cohen d，把差距換算成標準差倍數，方便比較不同量尺）；二分型結果常用風險比、勝算比、風險差；變數間關聯則用相關係數。它們共同回答「差距到底多大」，而非「像不像隨機」。

Cohen 的 0.2／0.5／0.8 可以直接拿來判斷重不重要嗎？

[推測] 只能當粗略參考、不該照搬。Cochrane 手冊明說這類通用門檻有問題，因為一個發現對病人重不重要是隨情境而定的，無法靠一句通則打發。同樣 0.2 的效果，在減重和在降低自殺率上的意義完全不同。

#統計識讀 #效應大小 #臨床顯著 #研究方法 #實證醫學

顯著與效應大小，問的是不同問題

為什麼「大樣本」會讓小差異也變顯著

常見的效應大小指標

多大才算「有意義」？小心通用門檻

我的觀點

資料來源

常見問題

繼續閱讀

p 值與信賴區間：看懂一份研究有沒有「達標」

發表偏差：為什麼「沒效果」的研究你常常看不到

誰出錢，會不會影響研究結果？利益衝突與產業資助