系統性回顧與統合分析:證據金字塔的頂端,以及它何時會出錯
系統性回顧與統合分析為何位居證據頂端?怎麼讀森林圖、看懂 I² 異質性,以及它們何時會失靈。
結論先講:系統性回顧與統合分析之所以被放在「證據金字塔」頂端,不是因為它們神聖,而是因為它們用可重現的方法把多個研究合在一起,壓低了單一研究的偶然與偏差。但這個地位是有條件的——過程要嚴謹,餵進去的原始研究要夠好。當這兩個前提崩掉,頂端的證據一樣會把人帶錯方向。
兩個常被混用的名詞
很多人把這兩個詞當成同義詞,其實分工很清楚。
系統性回顧(systematic review)是一套流程。 依 Cochrane Library 的定義,它「依事先設定的合格條件,試圖辨識、評讀並整合所有符合資格的實證證據,以回答一個特定研究問題」。關鍵在「事先設定」與「可重現」:搜尋哪些資料庫、納入排除標準、如何評估每篇研究的偏差風險,都要先寫好、攤在陽光下。
統合分析(meta-analysis)是其中一項統計技術。 Cochrane Handbook 第 10 章直接定義它是「把兩個以上獨立研究的結果做統計上的合併」,目的包括提高精確度、回答單一研究無法回答的問題,以及釐清彼此矛盾的發現。
重點來了:Cochrane Library 明確指出,並非每一篇系統性回顧都含統合分析。當各研究的受試者、介入或結果差異太大,或品質有疑慮時,硬把數字合併反而會產生誤導——這時候只做敘述性整合才對。所以「系統性回顧 ⊃ 統合分析」,而不是兩者等價。
為什麼在金字塔頂端
單一研究——即使是設計良好的隨機對照試驗——也會受樣本量、特定族群、機運左右。系統性回顧用透明流程把同一問題下的證據全找出來,統合分析再把它們加權合併,使總估計值的信賴區間更窄、更不容易被任一篇離群研究牽著走。這就是它高居頂端的理由:降低偶然、降低選擇性引用、提高精確度。
森林圖怎麼讀
森林圖(forest plot)是統合分析的招牌圖。依 Cochrane Handbook,圖上每個研究是一個方塊(點估計)加一條水平線(95% 信賴區間),方塊面積代表該研究在合併時的權重——樣本越大、權重越高,方塊越大。看圖抓四件事:
- 每個研究的點估計落在哪、信賴區間多寬;
- 哪幾篇權重大(方塊大),它們主導了結論;
- 最下方的合併結果(通常是菱形),這才是統合分析的答案;
- 合併的信賴區間有沒有跨過「無效線」(風險比的 1 或差值的 0)——跨過代表結果不顯著。
異質性與 I²:研究間在吵架嗎
把一堆研究合在一起,得先問:它們的結果彼此一致嗎?Cochrane 把「不同研究估計出的介入效果之間的變異」稱為統計異質性——也就是各研究結果的差異,超過了單靠機運可以解釋的程度。
最常見的量化指標是 I²,Cochrane Handbook 定義它為「效果估計的變異中,有多少比例來自異質性而非抽樣誤差(機運)」。Cochrane 給的是粗略區間,不是硬門檻:0–40% 可能不重要、30–60% 可能是中度、50–90% 可能是實質、75–100% 是相當大的異質性。Cochrane 特別提醒,I² 的意義還得看效果的方向、強度,以及異質性證據的強弱——不能光憑一個百分比就判生死。森林圖裡那個卡方(χ²/Q)檢定也是看異質性:P 值很低,代表研究間的差異不太可能只是機運。
「垃圾進、垃圾出」:頂端也會失靈
這是最該記住的一點。統合分析是放大鏡,不是淨水器——餵進去的是有偏差的爛研究,出來的就是被精緻包裝的爛結論,這就是 GIGO(garbage in, garbage out)。一篇統合分析把幾十篇小型、設計粗糙的研究合併,總估計值的信賴區間看起來很漂亮、很「確定」,但那份確定可能是假的。
兩個常見陷阱:
- 發表偏差/報告偏差。 Cochrane Handbook 第 13 章指出,當部分合格研究的結果「因為 P 值、效果大小或方向」而未被報告或無法取得時,統合分析就有偏差風險。陰性、不顯著的結果常被壓在抽屜裡不發表,於是文獻整體看起來比真相更樂觀。
- 納入標準與小型研究效應。 漏斗圖不對稱常被直接解讀成發表偏差,但 Cochrane 強調它其實是「小型研究效應」的通用呈現,成因不只一種——其中之一是方法學品質:有瑕疵的試驗傾向高估效果,本該是「陰性」的研究若做得草率,可能變成「陽性」。納入標準怎麼劃、收不收灰色文獻,都會左右最終那個數字。
這也是 Cochrane 回顧之所以被看重的原因:它要求事先註冊計畫書、有結構地評估每篇納入研究的偏差風險、並系統性處理上述問題——是把「過程嚴謹」這個前提制度化的嘗試。但即使是 Cochrane 回顧,也仍受限於它能找到的原始研究品質。
我的觀點
[已知] 系統性回顧與統合分析在方法學上確實優於單一研究,這是實證醫學的共識,不是行銷話術。
[推測] 但我認為一般讀者最該調整的,是「看到『統合分析』四個字就自動加信任分」這個反射。證據等級是「結構」的優勢,不是「結論」的保證。一篇納入十篇爛研究的統合分析,未必比一篇大型、嚴謹的隨機對照試驗更可信。
[已知] 實務上能自己做的三個檢查:一、它是系統性回顧還是只是把幾篇研究湊在一起講?二、I² 高不高、作者有沒有解釋異質性從何而來?三、有沒有評估納入研究的偏差風險與發表偏差?這三題能回答得清楚的回顧,才配得上金字塔頂端的位置。[不知道] 至於某一篇特定回顧的結論是否成立,沒讀過全文與其納入研究,我無法替它背書。
本文為健康資訊與研究方法整理,不構成醫療建議。如何解讀某一篇統合分析、或將其結論套用到你個人的診斷與治療決策,請與你的醫師或具實證醫學訓練的專業人員討論。
資料來源
每一則主張都對應到下方原始來源。我們優先採用系統性回顧、臨床指引與隨機對照試驗。
- 1
- 2
- 3
常見問題
系統性回顧和統合分析是同一件事嗎?
不是。系統性回顧是一套蒐集與評讀證據的「流程」;統合分析是把各研究結果用統計合併的「技術」。Cochrane 明確指出,並非每一篇系統性回顧都包含統合分析——當研究之間差異太大或品質有疑慮時,合併數字反而不恰當。
I² 多高才算「太高」?
[已知] 沒有單一硬門檻。Cochrane 提供粗略區間:0–40% 可能不重要、30–60% 中度、50–90% 實質、75–100% 相當大;但 Cochrane 同時強調,I² 的意義還要看效果的方向與強度,不能只看數字就下結論。
看到「統合分析」就一定可信嗎?
不一定。統合分析的可信度取決於回顧過程是否嚴謹、納入的原始研究品質如何,以及是否處理了發表偏差。合併爛研究只會放大錯誤(GIGO),不會變成好證據。