跳到主要內容
實證庫 Evidence Lab

效應大小:「有顯著差異」不等於「差很多」

顯著回答「像不像隨機」、效應大小回答「到底差多少」。大樣本連微小差距都能顯著,看到顯著先追問效應多大。

證據等級:專家意見 / 共識 — 經驗判斷,證據強度較低

先講結論:看到一份研究說「有顯著差異」,先別急著想成「差很多、很重要」。統計顯著與效應大小回答的是兩個完全不同的問題。 顯著問的是「這個差距像不像隨機造成的」;效應大小(effect size)問的是「差距到底有多大」。兩者可以脫鉤——尤其當樣本很大時,一個小到沒人在乎的差異,照樣能擠出「顯著」的結果。

顯著與效應大小,問的是不同問題

統計顯著(statistically significant)衡量的是:在「假設沒有效果」的前提下,看到目前這筆數據有多不尋常。它本質上是「這像不像運氣」的問題。

效應大小則是直接量「差距有多大」。Sullivan 與 Feinn 在《Journal of Graduate Medical Education》(2012)那篇〈Using Effect Size—or Why the P Value Is Not Enough〉講得很直白:效應大小衡量的是治療效果的幅度(magnitude),而統計顯著檢驗的是「這個發現有多可能只是機運造成的」。一個告訴你「有沒有」,一個告訴你「有多少」——它們不能互相取代。

為什麼「大樣本」會讓小差異也變顯著

這是整件事最關鍵的機制。統計顯著高度受樣本大小左右。 樣本越大,估計越精準,連微不足道的差距都能跨過顯著的門檻;反過來,樣本太小時,就算真實效果存在且重要,也可能因為估不準而「沒達顯著」、被漏掉。

換句話說,「達到 p<0.05」混合了「效果真的大」和「樣本真的多」兩種可能——光看顯不顯著,分不出是哪一種。這正是為什麼 Sullivan 與 Feinn 主張:p 值不夠,必須同時報告效應大小,讓「有沒有意義」不再被樣本數綁架。

常見的效應大小指標

效應大小不是單一一個數字,而是一整類指標。依結果型態挑用:

  • 平均差(MD, mean difference):兩組平均值的絕對差。Cochrane 手冊的定義是,它估計「實驗介入相較對照,平均把結果改變了多少」——前提是兩組用同一個量尺、同一個單位。
  • 標準化平均差(SMD, standardized mean difference/即社會科學的 Cohen d):當各研究「測同一個結果、卻用不同量表」時(例如都測憂鬱、但量表不同),就把差距換算成「相對於該研究內變異的倍數」來比較。Cochrane 手冊明說,SMD「以各研究內觀察到的參與者間變異為基準,表達介入效果的大小」,且 Cochrane 採用的版本就是社會科學裡的 Hedges’(校正)g。(補充:Cochrane 建議在系統性回顧裡用「SMD」一詞、而非籠統的「effect size」,以免和醫學上泛指介入效果的用法混淆。)
  • 比值與差值型:二分型結果(發生/沒發生)用風險比(RR)、勝算比(OR)、風險差(RD)。Cochrane 手冊把它們分別定義為「兩組事件風險之比」「兩組勝算之比」「兩組觀察到風險之差」。
  • 相關係數:描述兩個變數一起變動的強度與方向。

挑哪個指標取決於資料型態;但它們的共同任務一樣——回答「差距多大」,而非「像不像隨機」。

多大才算「有意義」?小心通用門檻

很多人想要一張對照表。Cohen 確實提過概略參考:SMD 的 0.2 算小效果、0.5 算中、0.8 算大——Cochrane 手冊第 15 章也引了這組數字。但它同一段話立刻警告:這類詮釋有問題,因為「一個發現對病人重不重要是隨情境而定的,無法用通則一概而論」。

更根本的是「統計顯著 ≠ 臨床顯著」。Cochrane 手冊把這點講得很清楚:「P 值處理的是介入效果是否恰好為零這個問題;它並不檢驗效果的幅度,對接受介入的人來說是否重要。」手冊給了一個具體例子:若臨床上認為「風險差要到 5% 才算重要」,那麼一個估計值只有 2%、信賴區間落在 1% 到 4% 的結果——就算統計上顯著(區間不跨 0),它其實顯示這個介入沒有帶來足夠的淨健康效益。也因此手冊建議作者「不要把結果描述成『統計顯著』或『不顯著』、也不要過度依賴 P 值門檻,而應一併報告信賴區間與確切的 P 值」。

我的觀點

[已知] 顯著與效應大小是兩個獨立的問題,這不是學派之爭,是定義使然:一個量「像不像運氣」,一個量「有多大」。[推測] 我認為大眾最容易踩的坑,是把新聞裡的「達到顯著差異」自動讀成「效果很強、值得改變行為」——而報導往往只給前者、藏起後者。最務實的防身術只有一句:看到「顯著」,先追問兩件事——效應多大?這個幅度對我(或對病人)有沒有實際意義? 能同時給出效應大小與信賴區間的研究,遠比只丟一個「顯著」標籤的可信。(這和站內〈p 值與信賴區間〉、〈相對風險 vs 絕對風險〉是同一個精神。)[不知道] 至於特定情境下「多大才夠重要」,沒有放諸四海的答案,得由該領域事先定義「最小重要差異」來判斷。

本文為健康與研究方法資訊整理,協助讀者看懂研究報告,不構成醫療建議,也不能取代臨床判斷。任何治療決策請與你的醫師或合格醫療人員討論;解讀特定研究的效應大小與其臨床意義時,建議一併參考原始論文與專業意見。

資料來源

每一則主張都對應到下方原始來源。我們優先採用系統性回顧、臨床指引與隨機對照試驗。

  1. 1
    Chapter 6: Choosing effect measures and computing estimates of effect

    Cochrane Handbook for Systematic Reviews of Interventions· 2024專家意見 / 共識查證於 2026年6月14日

  2. 2
    Chapter 15: Interpreting results and drawing conclusions

    Cochrane Handbook for Systematic Reviews of Interventions· 2024專家意見 / 共識查證於 2026年6月14日

  3. 3
    Using Effect Size—or Why the P Value Is Not Enough

    Journal of Graduate Medical Education (Sullivan & Feinn)· 2012專家意見 / 共識查證於 2026年6月14日

常見問題

「達到統計顯著」是不是就代表效果很大、很重要?

不是。統計顯著只說「這個差距不太像純運氣造成的」,沒說差距有多大。只要樣本夠大,連小到沒有實際意義的差異也能變得顯著。要判斷重不重要,得看效應大小與信賴區間,再問這個幅度對病人是否有意義。

效應大小有哪些常見指標?

連續型結果常用平均差(MD,同一量尺下的絕對差)與標準化平均差(SMD/Cohen d,把差距換算成標準差倍數,方便比較不同量尺);二分型結果常用風險比、勝算比、風險差;變數間關聯則用相關係數。它們共同回答「差距到底多大」,而非「像不像隨機」。

Cohen 的 0.2/0.5/0.8 可以直接拿來判斷重不重要嗎?

[推測] 只能當粗略參考、不該照搬。Cochrane 手冊明說這類通用門檻有問題,因為一個發現對病人重不重要是隨情境而定的,無法靠一句通則打發。同樣 0.2 的效果,在減重和在降低自殺率上的意義完全不同。