系統性回顧和統合分析是同一件事嗎？

不是。系統性回顧是一套蒐集與評讀證據的「流程」；統合分析是把各研究結果用統計合併的「技術」。Cochrane 明確指出，並非每一篇系統性回顧都包含統合分析——當研究之間差異太大或品質有疑慮時，合併數字反而不恰當。

I² 多高才算「太高」？

[已知] 沒有單一硬門檻。Cochrane 提供粗略區間：0–40% 可能不重要、30–60% 中度、50–90% 實質、75–100% 相當大；但 Cochrane 同時強調，I² 的意義還要看效果的方向與強度，不能只看數字就下結論。

看到「統合分析」就一定可信嗎？

不一定。統合分析的可信度取決於回顧過程是否嚴謹、納入的原始研究品質如何，以及是否處理了發表偏差。合併爛研究只會放大錯誤（GIGO），不會變成好證據。

系統性回顧與統合分析：證據金字塔的頂端，以及它何時會出錯

結論先講：系統性回顧與統合分析之所以被放在「證據金字塔」頂端，不是因為它們神聖，而是因為它們用可重現的方法把多個研究合在一起，壓低了單一研究的偶然與偏差。但這個地位是有條件的——過程要嚴謹，餵進去的原始研究要夠好。當這兩個前提崩掉，頂端的證據一樣會把人帶錯方向。

兩個常被混用的名詞

很多人把這兩個詞當成同義詞，其實分工很清楚。

系統性回顧（systematic review）是一套流程。 依 Cochrane Library 的定義，它「依事先設定的合格條件，試圖辨識、評讀並整合所有符合資格的實證證據，以回答一個特定研究問題」。關鍵在「事先設定」與「可重現」：搜尋哪些資料庫、納入排除標準、如何評估每篇研究的偏差風險，都要先寫好、攤在陽光下。

統合分析（meta-analysis）是其中一項統計技術。 Cochrane Handbook 第 10 章直接定義它是「把兩個以上獨立研究的結果做統計上的合併」，目的包括提高精確度、回答單一研究無法回答的問題，以及釐清彼此矛盾的發現。

重點來了：Cochrane Library 明確指出，並非每一篇系統性回顧都含統合分析。當各研究的受試者、介入或結果差異太大，或品質有疑慮時，硬把數字合併反而會產生誤導——這時候只做敘述性整合才對。所以「系統性回顧 ⊃ 統合分析」，而不是兩者等價。

為什麼在金字塔頂端

單一研究——即使是設計良好的隨機對照試驗——也會受樣本量、特定族群、機運左右。系統性回顧用透明流程把同一問題下的證據全找出來，統合分析再把它們加權合併，使總估計值的信賴區間更窄、更不容易被任一篇離群研究牽著走。這就是它高居頂端的理由：降低偶然、降低選擇性引用、提高精確度。

森林圖怎麼讀

森林圖（forest plot）是統合分析的招牌圖。依 Cochrane Handbook，圖上每個研究是一個方塊（點估計）加一條水平線（95% 信賴區間），方塊面積代表該研究在合併時的權重——樣本越大、權重越高，方塊越大。看圖抓四件事：

每個研究的點估計落在哪、信賴區間多寬；
哪幾篇權重大（方塊大），它們主導了結論；
最下方的合併結果（通常是菱形），這才是統合分析的答案；
合併的信賴區間有沒有跨過「無效線」（風險比的 1 或差值的 0）——跨過代表結果不顯著。

異質性與 I²：研究間在吵架嗎

把一堆研究合在一起，得先問：它們的結果彼此一致嗎？Cochrane 把「不同研究估計出的介入效果之間的變異」稱為統計異質性——也就是各研究結果的差異，超過了單靠機運可以解釋的程度。

最常見的量化指標是 I²，Cochrane Handbook 定義它為「效果估計的變異中，有多少比例來自異質性而非抽樣誤差（機運）」。Cochrane 給的是粗略區間，不是硬門檻：0–40% 可能不重要、30–60% 可能是中度、50–90% 可能是實質、75–100% 是相當大的異質性。Cochrane 特別提醒，I² 的意義還得看效果的方向、強度，以及異質性證據的強弱——不能光憑一個百分比就判生死。森林圖裡那個卡方（χ²／Q）檢定也是看異質性：P 值很低，代表研究間的差異不太可能只是機運。

「垃圾進、垃圾出」：頂端也會失靈

這是最該記住的一點。統合分析是放大鏡，不是淨水器——餵進去的是有偏差的爛研究，出來的就是被精緻包裝的爛結論，這就是 GIGO（garbage in, garbage out）。一篇統合分析把幾十篇小型、設計粗糙的研究合併，總估計值的信賴區間看起來很漂亮、很「確定」，但那份確定可能是假的。

兩個常見陷阱：

發表偏差／報告偏差。 Cochrane Handbook 第 13 章指出，當部分合格研究的結果「因為 P 值、效果大小或方向」而未被報告或無法取得時，統合分析就有偏差風險。陰性、不顯著的結果常被壓在抽屜裡不發表，於是文獻整體看起來比真相更樂觀。
納入標準與小型研究效應。 漏斗圖不對稱常被直接解讀成發表偏差，但 Cochrane 強調它其實是「小型研究效應」的通用呈現，成因不只一種——其中之一是方法學品質：有瑕疵的試驗傾向高估效果，本該是「陰性」的研究若做得草率，可能變成「陽性」。納入標準怎麼劃、收不收灰色文獻，都會左右最終那個數字。

這也是 Cochrane 回顧之所以被看重的原因：它要求事先註冊計畫書、有結構地評估每篇納入研究的偏差風險、並系統性處理上述問題——是把「過程嚴謹」這個前提制度化的嘗試。但即使是 Cochrane 回顧，也仍受限於它能找到的原始研究品質。

我的觀點

[已知] 系統性回顧與統合分析在方法學上確實優於單一研究，這是實證醫學的共識，不是行銷話術。

[推測] 但我認為一般讀者最該調整的，是「看到『統合分析』四個字就自動加信任分」這個反射。證據等級是「結構」的優勢，不是「結論」的保證。一篇納入十篇爛研究的統合分析，未必比一篇大型、嚴謹的隨機對照試驗更可信。

[已知] 實務上能自己做的三個檢查：一、它是系統性回顧還是只是把幾篇研究湊在一起講？二、I² 高不高、作者有沒有解釋異質性從何而來？三、有沒有評估納入研究的偏差風險與發表偏差？這三題能回答得清楚的回顧，才配得上金字塔頂端的位置。[不知道] 至於某一篇特定回顧的結論是否成立，沒讀過全文與其納入研究，我無法替它背書。

本文為健康資訊與研究方法整理，不構成醫療建議。如何解讀某一篇統合分析、或將其結論套用到你個人的診斷與治療決策，請與你的醫師或具實證醫學訓練的專業人員討論。

系統性回顧與統合分析：證據金字塔的頂端，以及它何時會出錯

兩個常被混用的名詞

為什麼在金字塔頂端

森林圖怎麼讀

異質性與 I²：研究間在吵架嗎

「垃圾進、垃圾出」：頂端也會失靈

我的觀點

資料來源

常見問題

兩個常被混用的名詞

為什麼在金字塔頂端

森林圖怎麼讀

異質性與 I²：研究間在吵架嗎

「垃圾進、垃圾出」：頂端也會失靈

我的觀點

資料來源

常見問題

繼續閱讀

發表偏差：為什麼「沒效果」的研究你常常看不到

p 值與信賴區間：看懂一份研究有沒有「達標」

相對風險 vs 絕對風險：健康新聞最常騙你的數字