過去二十年以來,統(tǒng)治整個臨床研究領域的方法學范式是循證醫(yī)學,對于臨床醫(yī)生而言,循證醫(yī)學代表著三樣東西:大樣本前瞻性臨床試驗,尤其是大樣本隨機對照試驗(RCT);Meta-分析;循證指南。循證指南基于RCT和Meta-分析,尤其是后者,在權威的循證醫(yī)學國際組織Cochrane協(xié)作網(wǎng)的定義中,是所謂的“最高級別”的臨床證據(jù),被認為是制定指南以及指導臨床醫(yī)生進行診療決策最重要的科學依據(jù)。
Meta-分析的緣起
Meta-分析,簡單來說,就是將來自于已經(jīng)發(fā)表的臨床試驗數(shù)據(jù),通過一定的規(guī)范化處理后,合并到一起,然后看看這合并后的結果,與原來的單個研究有什么不同或者相同之處。
既然可以做臨床試驗,為什么還需要Meta-分析?作為從循證醫(yī)學進入中國之初就開始進行Meta-分析研究的醫(yī)生和科學家,我們認為以下幾個理由是主要的:
●大多數(shù)臨床試驗的樣本量不夠大。樣本量小了,其對假說的驗證能力就低了,但是大樣本臨床試驗成本很高。把來自于很多個研究者的臨床試驗通過Meta-分析合并在一起,可以在不增加成本的情況,很快地增加樣本量,從而減少達到有效樣本量所需結論的成本。
●即使近年來單個試驗樣本量越來越大,但是越大樣本的大型研究,其受到研究者和資助者主客觀因素的影響也很多,設計可能未必很合理,得到的結論往往是良莠不齊。嚴格遵循國際標準的Meta-分析,會全面地梳理這些因素,從而為一些爭論不休的問題理清思路,這一意義上,Meta-分析具有某種臨床試驗裁判官的位置。
●既然很多臨床試驗研究的對象具有某種相似性,為什么不把這些看起來相似的試驗的數(shù)據(jù)合并在一起呢?
對于上世紀后半葉的臨床研究者來說,這些理由是強有力的。因此,Meta-分析發(fā)展并大大興旺起來。Meta-分析興起之初,對于若干重要臨床爭論的解決提供了很好的路徑,成為劃時代的臨床科學研究工具。
Meta-分析在方法學上的先天不足
但是,Meta-分析是具有先天缺陷的。這就是所謂的“異質(zhì)性”(heterogeneity)。那么,什么是異質(zhì)性呢?這個詞對于統(tǒng)計專業(yè)之外的讀者有點拗口,不過把它的反義詞拿出來,就有助于理解了,那就是“一致性”(homogeneity),可以直觀地理解為臨床試驗之間所具有的相似性??陀^現(xiàn)實是:即使臨床試驗是針對同一類疾病、同種治療手段而開展的,由于人和人之間具有的差異性,由于試驗設計以及試驗環(huán)境的差異性,我們不可能找到絕對相同的兩個研究。但研究間可以存在大小不等的相似性。當在不同時間、地點或由不同研究者所進行的試驗具有相當?shù)南嗨菩詴r,合并它們就是合理的。為達此目的,就必須確定一種分類界限:即從大量研究中找出一些具相似研究,并確認它們本質(zhì)上的相似性,將它們和別的、本質(zhì)上完全不同(差異過大)的研究區(qū)分開來。異質(zhì)性指的就是這種存在于研究之間的、根本上的差異性。本質(zhì)上不同的研究不應當合并,不解決異質(zhì)性問題而進行的任何Meta-分析,是不科學的。
經(jīng)典異質(zhì)性檢驗:理論與統(tǒng)計學上的缺陷
Meta-分析的先驅(qū)者們深知異質(zhì)性問題的關鍵性,從很早的時候起,他們就努力尋找測度異質(zhì)性的方法。最終發(fā)展定量化評估方法,此即目前流行的以Q和I?為代表的所謂“異質(zhì)性檢驗”.然而,我們剛剛發(fā)表的一個研究從數(shù)學上證明:這些經(jīng)典的,已經(jīng)襲用十余年的“異質(zhì)性檢驗”方法學是有缺陷的。換句話說,過去十幾年來的循證醫(yī)學,其貌似強大的地基,實是建立于沙灘之上的。
Meta-分析的不可靠性:數(shù)學證明
科克倫教授(Cochran)及其同事們在創(chuàng)立Meta-分析時就發(fā)現(xiàn),不同的臨床試驗在數(shù)據(jù)采集、樣本的具體情況方面所具有的差異屬性實在是太多了,要證明能夠?qū)碜圆煌芯康臄?shù)據(jù)合并在一起分析在數(shù)學上是可接受的(legitimate),并不是那么容易。定義異質(zhì)性并加以定量評價,一直是循證醫(yī)學發(fā)展過程中在其方法學領域最為重要的問題之一。
Q統(tǒng)計量是用來評價Meta-分析研究間的差異總和的一種統(tǒng)計量。Q值越大,說明所納入的研究之間存在越大的異質(zhì)性;反之,Q值越小,則說明所納入的研究之間的差異性越小。但Q的計算方法中隱含了對研究數(shù)目的依賴。當納入研究的數(shù)量逐漸增大時,Q值將發(fā)生“過度膨脹”,從而造成假陽性檢驗結果(即不論研究是否真的來自于相似的抽樣總體,只要研究數(shù)增加,Q值都會將最終結果判定為“來自于不同總體”)。為解決Q對研究數(shù)量不當依賴問題,英國循證醫(yī)學專家希金斯(Higgins J)提出通過Q的計算公式中減去樣本數(shù)的修正思路,他們將這一修正方法稱之為“I?檢驗”,并認為I?因而比Q更為合理。希金斯將這一方法寫成研究論文,發(fā)表于2003年的《不列顛醫(yī)學雜志》(British Medical Journal,BMJ)。此后,I?迅速被業(yè)界接受為異質(zhì)性度量的標準,被寫入了包括Cochrane系統(tǒng)評價手冊在內(nèi)的幾乎所有循證醫(yī)學教科書,是如今幾乎每一篇Meta-分析都會用到的方法。
但是,由四川省人民醫(yī)院聯(lián)合國內(nèi)多家知名研究單位的多學科專家共同完成的這項研究,從數(shù)學上證明了上述經(jīng)典方法是不可靠的。我們通過數(shù)值**證明:當樣本數(shù)逐漸增大的時候,I?值將隨著之而增加,其上升趨勢單調(diào)不降(見下圖)。這意味著只要研究樣本量足夠大,哪怕是根本不可能存在異質(zhì)性的、來自同一總體的抽樣,仍然會被I2檢驗判定為存在有異質(zhì)性。這一研究也證明Q同樣依賴于樣本量的大小。
(I?值隨樣本量增加而線性增加)
異質(zhì)性檢驗本質(zhì)上是為保障Meta-分析的可靠性,使其能夠?qū)碜远鄠€臨床試驗的數(shù)據(jù)進行合并,擴大樣本量從而實現(xiàn)檢驗假設所必須的效應量。然而,我們證明,隨著研究數(shù)量的增加,合并了臨床試驗并使得樣本量增加的Meta-分析,其異質(zhì)性檢驗的結果完全不可靠。具有諷刺意味的是,現(xiàn)代臨床試驗在面對各種矛盾和似是而非的結論的時候往往乞靈于“更大樣本的試驗”.這兩方面不可調(diào)和的矛盾說明了Meta-分析在邏輯上不能自洽,方法學基礎存在重大缺陷。
反思建立在Meta-分析基礎之上的循證醫(yī)學
循證醫(yī)學的創(chuàng)始人之一薩基特教授(David Sacket)在其名著《循證醫(yī)學的教學與實踐》(Evidence-Based Medicine:How to Practice and Teach EBM)中曾經(jīng)指出,慎重、準確和明智地應用當前所能獲得的最好的研究依據(jù),同時結合醫(yī)生的個人專業(yè)技能和多年臨床經(jīng)驗,考慮病人的價值和愿望,將三者完美地結合制定出病人的治療措施方可稱為循證醫(yī)學。然而,在循證醫(yī)學向的發(fā)展進程中,由于制定證據(jù)分級體系時,過分強調(diào)Meta-分析和大樣本RCT的作用,使得在實踐中,臨床研究者和廣大的醫(yī)務人員逐漸把最佳證據(jù)理解為:大樣本RCT以及基于這類研究的Meta分析。隨著時間的推移,越來越多的RCT和Meta-分析已經(jīng)顯示出各種自相矛盾性,使得臨床醫(yī)師無所適從。
如今我們已經(jīng)認識到,任何RCT都將面對如下的、無法回避的挑戰(zhàn):對最終考察目標的可造成實質(zhì)性影響的因素遠遠多于人們最初的預想。隨機化試圖控制的是存在于患者個體間的差異。本質(zhì)上,個體差異反應的是從基因組到宏觀表型的差異。隨著對基因組認識的深化,我們認識到,影響特定臨床表型(如血壓、血糖水平、腫瘤類型)的基因數(shù)量十分眾多。例如,與創(chuàng)傷后創(chuàng)面愈合功能密切相關的基因就有651個。這還僅僅是從基因組的角度來考慮。進一步考慮在轉(zhuǎn)錄、表達水平的影響因素,那么可影響臨床結局的分子因素將以數(shù)量級增加。
假設這些影響因素在人群中的分布都是隨機的,即正態(tài)分布,存在于個體間的、數(shù)以萬千計的影響因素在數(shù)學上其實已經(jīng)構成了有著數(shù)以萬記維度的超高維空間?,F(xiàn)實中的RCT,能納入成千個樣本的,已經(jīng)是相當難得的大型研究了。面對上述本質(zhì)上分布于超高維空間中的個體差異,即使有數(shù)以千計的研究對象,也幾乎完全不可能是做到真正隨機。此種情形下,對一個RCT中發(fā)現(xiàn)的存在于組間的臨床結局的“顯著性”差異,其真實原因有很大可能是由完全不可控的偏倚所造成的。
所以,應該認識到,RCT這一誕生于半個世紀之前的**,其方法學基礎是虛幻的:隨機化可平衡個體變異,能夠保證的僅僅是每個參加實驗的對象均有“同等機會”被分配到試驗組和對照組當中,但不能保證每個影響實驗結局的因素都有“均等機會”被分配到兩組當中。
引入新方法,建立新一代循證醫(yī)學的**
歸根結底,RCT、隊列研究以及病例-對照研究,其哲學本體其實并沒有太大差別:此即觀察和收集數(shù)據(jù)。神秘化、毫無節(jié)制地崇拜大樣本、前瞻性臨床試驗以及基于這些試驗的Meta-分析,實在是一種迷信。面對復雜的疾病生物現(xiàn)象,應該承認:第一代循證醫(yī)學及其背后的、基于18-19世紀古典統(tǒng)計學思想的**,到了應該被揚棄的時候。
實事求是的觀點應該是:臨床數(shù)據(jù),不論是來前瞻性試驗的,還是來自于臨床日常工作中的,在經(jīng)過適當?shù)慕y(tǒng)一化和清理之后,是具有同等應用地位的。理想的新一代循證醫(yī)學方法,應當建立在廣泛性的原始數(shù)據(jù)開源基礎上。
我們也深知,大范圍的數(shù)據(jù)開源,還需等待一個較長的過程。在逐步轉(zhuǎn)變的過程中,對于經(jīng)過研究者整理的數(shù)據(jù),依然有很大的進行“二次研究”的需求和必要性。在這過渡時期,各學科應該加強對數(shù)據(jù)報告規(guī)范性的要求,引入并開發(fā)一些適合于這些數(shù)據(jù)的模型。我們最近進行的一項對危重病患者最佳能量攝入?yún)^(qū)間的研究中,就已經(jīng)發(fā)現(xiàn),與經(jīng)典的、基于“專家經(jīng)驗”的Meta-分析比較,基于無偏倚聚類的機器學習是更為合理的對研究間相似性和異質(zhì)性進行判斷的方法。新一代醫(yī)學統(tǒng)計思路,應該基于謹慎細致的評估數(shù)據(jù)類型,選擇最適合于數(shù)據(jù)的模型。此即:“數(shù)據(jù)驅(qū)動,模型適應之”,而非“模型驅(qū)動,數(shù)據(jù)適應之”.
針對有關統(tǒng)計學數(shù)據(jù)報告的規(guī)范性和研究重現(xiàn)性問題,我國知名統(tǒng)計學家謝益輝教授發(fā)布了基于R語言的一個工具包(package)。并倡導利用該工具包來撰寫動態(tài)的統(tǒng)計報告。這一**,可以很好的增加研究結果的可信性,從而避免些統(tǒng)計方法的使用錯誤,有利于后來的研究者對已發(fā)表研究的數(shù)據(jù)進行深入利用和挖掘。
因之,必須將臨床數(shù)據(jù)與基礎研究的數(shù)據(jù)相互結合,使機制性解釋和臨床宏觀表型之間形成結合,使臨床研究擺脫久已受人詬病的“黑箱模式”:其起點,是細致的描述從分子機制到臨床過程的各種尺度上的復雜性。不再寄希望于僅僅使用“病死率”、“并發(fā)癥率”、“住院時間”、“靈敏度”、“特異度”等很少一些指標來衡量臨床干預或診斷措施的成敗。一旦機理性和機制性過程能夠與臨床表型相結合,我們就能發(fā)展出真正精準、個體化的臨床評估體系。
需要強調(diào)指出,循證醫(yī)學先驅(qū)們所開創(chuàng)的臨床研究哲學:以證據(jù)為基礎,結合患者需求以及考慮衛(wèi)生巾濟的可持續(xù)發(fā)展,依然是強有力的。新一代的醫(yī)生和科學家,應當勇敢的接過前輩遞給我們的接力棒,直面挑戰(zhàn),努力學習,毫不猶豫地跨過學科之間的界限與鴻溝,發(fā)展出全新一代的循證醫(yī)學**。我們深信,臨床醫(yī)學徹底的***,或?qū)⒁晕覀冸y以預計的速度到來。解決世界性醫(yī)療資源緊缺難題的鑰匙,也正蘊含于其中。
(本文作者江華、楊浩、彭謹,單位均為四川省人民醫(yī)院。另北京協(xié)和醫(yī)院陳偉,四川省人民醫(yī)院Charles Damien Lu對本文亦有貢獻。)
最新!醫(yī)生的平均年薪由改革前2011年的5.65萬增加到2023年的19....[詳細]
連續(xù)工作滿15年或累計工作滿25年且仍在崗的鄉(xiāng)鎮(zhèn)衛(wèi)生院專業(yè)技術人員,在滿足...[詳細]