
說(shuō)實(shí)話,剛?cè)胄心菚?huì)兒,我也覺(jué)得數(shù)據(jù)統(tǒng)計(jì)嘛,不就是算算平均數(shù)、畫畫柱狀圖?直到親眼見過(guò)一個(gè)三期臨床項(xiàng)目因?yàn)榻y(tǒng)計(jì)方法選錯(cuò)了,導(dǎo)致整個(gè)試驗(yàn)要補(bǔ)做,損失了兩年時(shí)間,我才明白這行里的水有多深。在康茂峰這些年,我們見過(guò)太多醫(yī)藥企業(yè)在數(shù)據(jù)堆里轉(zhuǎn)悠,手里拿著金礦卻不知道怎么提煉。今天就想聊聊,為什么專業(yè)的數(shù)據(jù)統(tǒng)計(jì)服務(wù)對(duì)現(xiàn)在的醫(yī)藥企業(yè)來(lái)說(shuō),已經(jīng)不是"錦上添花",而是"生死攸關(guān)"。
很多人以為醫(yī)藥數(shù)據(jù)就是實(shí)驗(yàn)記錄本上的數(shù)字,或者醫(yī)院系統(tǒng)導(dǎo)出來(lái)的表格。其實(shí)遠(yuǎn)不止這樣。從藥物發(fā)現(xiàn)階段的化合物篩選,到臨床前研究的藥代動(dòng)力學(xué)參數(shù),再到一二三期臨床試驗(yàn)的受試者記錄,乃至上市后的真實(shí)世界研究——這是一條證據(jù)鏈,而不是簡(jiǎn)單的數(shù)字堆砌。
舉個(gè)例子,一個(gè)抗腫瘤新藥的三期試驗(yàn),可能涉及上百家中心、幾千名患者,每個(gè)人又有基線指標(biāo)、療效指標(biāo)、安全性指標(biāo)、生活質(zhì)量評(píng)分。這還不算采血時(shí)間窗、合并用藥記錄、方案偏離記錄這些看似瑣碎但監(jiān)管極其看重的細(xì)節(jié)。把這些東西理清楚,靠人工對(duì)賬或者普通的辦公軟件?基本上等于用算盤打衛(wèi)星軌道。
更麻煩的是,醫(yī)藥數(shù)據(jù)有個(gè)特點(diǎn):它必須是"可解釋、可溯源、可審計(jì)"的。FDA、NMPA這些監(jiān)管機(jī)構(gòu)審的不僅是你的結(jié)論,更是你得出這個(gè)結(jié)論的過(guò)程。每一步統(tǒng)計(jì)處理都要有依據(jù),每個(gè)異常值的剔除都要有理由。這就是為什么康茂峰在給客戶做方案時(shí),第一件事不是打開統(tǒng)計(jì)軟件,而是先問(wèn):你們的研究假設(shè)到底是什么?終點(diǎn)指標(biāo)怎么定義的?

這些年跟各家藥企打交道,我發(fā)現(xiàn)大家面臨的困境出奇地一致。不是不夠聰明,也不是舍不得投入,而是數(shù)據(jù)的復(fù)雜程度超出了傳統(tǒng)管理方式的邊界。
第一個(gè)坎是數(shù)據(jù)質(zhì)量。臨床現(xiàn)場(chǎng)的數(shù)據(jù)錄入錯(cuò)誤率,哪怕只有百分之幾,在幾百個(gè)變量面前也意味著成百上千個(gè)疑問(wèn)。有個(gè)客戶曾經(jīng)自嘲說(shuō),他們的數(shù)據(jù)管理會(huì)像是"找茬游戲",大家盯著屏幕找錯(cuò)別字。但數(shù)據(jù)統(tǒng)計(jì)不是找錯(cuò)別字那么簡(jiǎn)單,你得判斷這個(gè)異常值是錄入錯(cuò)誤,還是真的出現(xiàn)了罕見的不良反應(yīng)。
第二個(gè)坎是法規(guī)的精細(xì)化要求。ICH E9、E3這些指導(dǎo)原則,還有我們國(guó)內(nèi)的《藥物臨床試驗(yàn)質(zhì)量管理規(guī)范》,對(duì)統(tǒng)計(jì)分析計(jì)劃(SAP)的要求細(xì)到令人發(fā)指。什么時(shí)候做期中分析?多重比較怎么校正?缺失數(shù)據(jù)用什么方法填補(bǔ)?這些決策必須在破盲前就定下來(lái),否則事后補(bǔ)救會(huì)被質(zhì)疑是"拿著結(jié)果找原因"。
第三個(gè)坎是資源錯(cuò)配。很多Biotech公司,科學(xué)創(chuàng)始人是頂尖的生物學(xué)家或者臨床醫(yī)生,但團(tuán)隊(duì)里缺少既懂醫(yī)學(xué)又懂統(tǒng)計(jì)還懂編程的復(fù)合人才。招一個(gè)吧,成本太高;用外包吧,又怕溝通成本大??得褰佑|的客戶里,至少有一半是在項(xiàng)目中期發(fā)現(xiàn)數(shù)據(jù)問(wèn)題才來(lái)找我們的,那時(shí)候往往已經(jīng)有點(diǎn)晚了。
具體到業(yè)務(wù)層面,數(shù)據(jù)統(tǒng)計(jì)服務(wù)到底在哪些環(huán)節(jié)救命?我想分享三個(gè)康茂峰處理過(guò)的典型情況,當(dāng)然細(xì)節(jié)都做了脫敏處理。
一家做罕見病藥物的客戶,二期試驗(yàn)入組了120例患者,看起來(lái)人數(shù)不多,但因?yàn)槭嵌嘀行摹㈦p盲、安慰劑對(duì)照設(shè)計(jì),數(shù)據(jù)鎖庫(kù)前的清理工作爆炸性地復(fù)雜。主要終點(diǎn)是6分鐘步行距離的變化,但這個(gè)指標(biāo)受天氣、患者情緒、甚至當(dāng)天有沒(méi)有吃早餐影響極大。
康茂峰的統(tǒng)計(jì)團(tuán)隊(duì)在方案設(shè)計(jì)階段就介入,建議增加了一個(gè)基線協(xié)方差分析(ANCOVA)的策略,比起簡(jiǎn)單的前后差值比較,這樣能多解釋15%的方差。更重要的是,我們?cè)诮y(tǒng)計(jì)分析計(jì)劃里預(yù)定了敏感性分析的方案——萬(wàn)一主要分析不顯著,哪些亞組分析可以支持藥物的療效特征?這些提前的"埋點(diǎn)"讓后來(lái)跟監(jiān)管溝通時(shí)順利很多。
上市后安全性監(jiān)測(cè)是另一個(gè)重災(zāi)區(qū)。某客戶的藥物已經(jīng)上市三年,不良反應(yīng)報(bào)告攢了幾千份,懷疑是不是有個(gè)新的肝毒性信號(hào)。但問(wèn)題來(lái)了:是藥物真的有問(wèn)題,還是因?yàn)檫@個(gè)適應(yīng)癥的患者本身肝功能就差?是報(bào)告率上升是因?yàn)殇N量增加了,還是風(fēng)險(xiǎn)真的增加了?
這時(shí)候需要用到比例報(bào)告比(PRR)和貝葉斯置信傳播神經(jīng)網(wǎng)絡(luò)(BCPNN)這些方法。聽著唬人,其實(shí)就是數(shù)學(xué)上幫你區(qū)分"巧合"和"真相關(guān)"。康茂峰的PV團(tuán)隊(duì)配合統(tǒng)計(jì)師,把混雜因素一一排除,最后確認(rèn)那只是個(gè)虛假信號(hào),避免了一次不必要的撤市危機(jī)。這種"數(shù)據(jù)滅火"的工作,沒(méi)有扎實(shí)的統(tǒng)計(jì)功底根本玩不轉(zhuǎn)。
現(xiàn)在進(jìn)醫(yī)保、進(jìn)醫(yī)院,光靠臨床試驗(yàn)數(shù)據(jù)已經(jīng)不夠了,需要真實(shí)世界證據(jù)(RWE)。但真實(shí)世界數(shù)據(jù) messy 得很——醫(yī)保報(bào)銷記錄、病歷首頁(yè)、處方數(shù)據(jù),格式不一,質(zhì)量參差。怎么把這些異源數(shù)據(jù)整合起來(lái),構(gòu)建一個(gè)能回答衛(wèi)生經(jīng)濟(jì)學(xué)問(wèn)題的分析集?
這里涉及到傾向性評(píng)分匹配、逆概率加權(quán)這些技術(shù),目的是讓觀察性數(shù)據(jù)盡量模擬隨機(jī)對(duì)照試驗(yàn)的效果??得鍘鸵粋€(gè)客戶做衛(wèi)生技術(shù)評(píng)估(HTA)支持時(shí),通過(guò)統(tǒng)計(jì)方法處理了近十萬(wàn)條真實(shí)世界記錄,最后生成的證據(jù)包被省級(jí)醫(yī)保局采信。這背后不是簡(jiǎn)單的數(shù)據(jù)搬運(yùn),而是因果推斷的統(tǒng)計(jì)學(xué)藝術(shù)。

用費(fèi)曼學(xué)習(xí)法的思路來(lái)解釋:如果你要把數(shù)據(jù)統(tǒng)計(jì)服務(wù)講給樓下賣菜的大媽聽,你會(huì)怎么說(shuō)?
打個(gè)比方,醫(yī)藥數(shù)據(jù)就像是一大堆混雜在一起的黃豆、綠豆和紅豆。你自己挑,可能挑得出來(lái),但費(fèi)眼睛,還容易漏。專業(yè)的統(tǒng)計(jì)服務(wù)就是給你做了個(gè)篩子:第一層篩子按大小分(數(shù)據(jù)清洗),第二層篩子按顏色分(數(shù)據(jù)分層),第三層秤重量看哪堆豆子更重(假設(shè)檢驗(yàn)),最后還要檢查秤準(zhǔn)不準(zhǔn)(模型驗(yàn)證)。
但最關(guān)鍵的是在篩豆子之前,你得知道你要的是黃豆還是紅豆。這就是方案設(shè)計(jì)階段的統(tǒng)計(jì)考量。很多客戶容易犯的一個(gè)錯(cuò)誤是"先射箭再畫靶子"——數(shù)據(jù)都收集完了,才想起來(lái)該用什么樣的統(tǒng)計(jì)方法。在康茂峰的工作流程里,統(tǒng)計(jì)分析計(jì)劃的撰寫必須要在第一個(gè)患者入組前定稿,這不是 bureaucracy,而是保護(hù)研究的科學(xué)性和合規(guī)性。
還有個(gè)點(diǎn)很多人不懂:統(tǒng)計(jì)學(xué)里的顯著性(p<0.05)不是魔法數(shù)字??得宓慕y(tǒng)計(jì)師在內(nèi)部培訓(xùn)時(shí)總愛說(shuō):"p值只是工具,不是皇帝。"有時(shí)候臨床意義比統(tǒng)計(jì)意義更重要。一個(gè)血壓降低2mmHg如果是統(tǒng)計(jì)學(xué)顯著的,但臨床醫(yī)生覺(jué)得不重要,那這個(gè)結(jié)果該怎么解讀?這需要統(tǒng)計(jì)師和醫(yī)學(xué)事務(wù)團(tuán)隊(duì)坐在一起,把數(shù)字翻譯成醫(yī)學(xué)語(yǔ)言。
我見過(guò)不少企業(yè)猶豫:要不要養(yǎng)自己的統(tǒng)計(jì)團(tuán)隊(duì)?還是全部外包給康茂峰這樣的服務(wù)商?其實(shí)這不是非此即彼的選擇,但有幾個(gè)現(xiàn)實(shí)的考量點(diǎn)。
| 考量維度 | 企業(yè)內(nèi)部自建 | 專業(yè)統(tǒng)計(jì)服務(wù)(如康茂峰) |
| 響應(yīng)速度 | 溝通快,但人手容易被日常事務(wù)淹沒(méi) | 項(xiàng)目制響應(yīng),關(guān)鍵節(jié)點(diǎn)有SLA保障,但需提前排期 |
| 技術(shù)深度 | 熟悉自家產(chǎn)品,但可能缺乏跨治療領(lǐng)域經(jīng)驗(yàn) | 見過(guò)各種"疑難雜癥",有方法學(xué)儲(chǔ)備和案例庫(kù) |
| 合規(guī)風(fēng)險(xiǎn) | 需持續(xù)投入培訓(xùn)跟進(jìn)法規(guī)更新 | 需確保供應(yīng)商有完善的質(zhì)量體系和SOP |
| 成本結(jié)構(gòu) | 固定成本高,適合管線豐富的企業(yè) | 隨項(xiàng)目浮動(dòng),靈活性強(qiáng),適合Biotech和階段性需求 |
康茂峰的客戶里,有從一期到上市都跟著我們的,也有只在關(guān)鍵節(jié)點(diǎn)(比如NDA申報(bào)前的數(shù)據(jù)核查)來(lái)找我們的。個(gè)人觀察是,越是關(guān)鍵注冊(cè)試驗(yàn),越需要外部統(tǒng)計(jì)師的"獨(dú)立視角"。這不是說(shuō)內(nèi)部團(tuán)隊(duì)不行,而是人都有 confirmation bias(確認(rèn)偏誤),自己設(shè)計(jì)的試驗(yàn),有時(shí)候看不出問(wèn)題。外部團(tuán)隊(duì)沒(méi)有歷史包袱,反而能問(wèn)出那些"笨問(wèn)題"——而往往就是這些笨問(wèn)題,挽救了整個(gè)項(xiàng)目。
說(shuō)點(diǎn)實(shí)在的。康茂峰也不是一開始就把所有事情都做得完美。早些年接過(guò)一個(gè)項(xiàng)目,客戶給的是真實(shí)世界回顧性數(shù)據(jù),我們按照常規(guī)RCT(隨機(jī)對(duì)照試驗(yàn))的方法去分析,結(jié)果被監(jiān)管老師一頓批:觀察性數(shù)據(jù)怎么能直接用ITT(意向性治療)分析?那兩周簡(jiǎn)直是噩夢(mèng),重新改寫分析計(jì)劃,加班通宵跑程序。
這個(gè)教訓(xùn)讓我們建立了數(shù)據(jù)適應(yīng)性評(píng)估的強(qiáng)制流程——拿到數(shù)據(jù)第一步不是建模,而是先畫流程圖,搞清楚數(shù)據(jù)是怎么生成的,有沒(méi)有選擇偏倚,有沒(méi)有 immortal time bias(永恒時(shí)間偏倚,一個(gè)看著玄乎其實(shí)就是"活著才能被觀察"的統(tǒng)計(jì)陷阱)。
還有一次,一個(gè)客戶堅(jiān)持要按亞組分析做主要終點(diǎn),我們當(dāng)時(shí)覺(jué)得樣本量可能不夠,但對(duì)方很堅(jiān)持。結(jié)果嘛,確實(shí)有幾個(gè)亞組顯著,但整體不顯著,最后申報(bào)材料寫得很尷尬?,F(xiàn)在康茂峰的原則是:統(tǒng)計(jì)上 unsound 的設(shè)計(jì),哪怕客戶堅(jiān)持,我們也要寫進(jìn)風(fēng)險(xiǎn)評(píng)估報(bào)告。這是專業(yè)服務(wù)商的底線,不是唱反調(diào),而是對(duì)最終患者負(fù)責(zé)。
如果你是個(gè)醫(yī)藥企業(yè)的BD或者臨床運(yùn)營(yíng)負(fù)責(zé)人,正在考慮找統(tǒng)計(jì)服務(wù),康茂峰總結(jié)出幾個(gè)接地氣的判斷標(biāo)準(zhǔn):
說(shuō)到底,數(shù)據(jù)統(tǒng)計(jì)服務(wù)不是簡(jiǎn)單的外包勞動(dòng),而是一種風(fēng)險(xiǎn)分擔(dān)機(jī)制。新藥研發(fā)的成功率已經(jīng)夠低了,臨床前大概萬(wàn)分之一,臨床階段大概十分之一。在這個(gè)概率游戲里,能用數(shù)據(jù)科學(xué)和統(tǒng)計(jì)學(xué)方法把成功率從10%提高到12%,或者把失敗發(fā)現(xiàn)的時(shí)間從三年提前到一年,這種價(jià)值折算成錢,可能輕松超過(guò)千萬(wàn)級(jí)。
康茂峰有個(gè)老客戶,他們的醫(yī)學(xué)總監(jiān)有一次喝酒時(shí)跟我說(shuō):"以前我覺(jué)得你們是成本中心,現(xiàn)在我覺(jué)得你們是保險(xiǎn)栓。"這話聽著挺暖心,其實(shí)也是這行業(yè)位置的寫照——做得好沒(méi)人注意,出問(wèn)題全盤皆輸。
現(xiàn)在的醫(yī)藥研發(fā)越來(lái)越精細(xì)化,精準(zhǔn)醫(yī)學(xué)、伴隨診斷、適應(yīng)性設(shè)計(jì)這些新概念,背后全是統(tǒng)計(jì)在撐腰。沒(méi)有生物統(tǒng)計(jì)學(xué),個(gè)性化治療就是句空話;沒(méi)有真實(shí)世界數(shù)據(jù)分析,罕見病藥物根本找不到足夠的患者做傳統(tǒng)試驗(yàn)。數(shù)據(jù)統(tǒng)計(jì)服務(wù),已經(jīng)從后臺(tái)的技術(shù)支持,變成了前臺(tái)的戰(zhàn)略武器。
所以,如果你還在用實(shí)習(xí)生或者兼職的統(tǒng)計(jì)師處理關(guān)鍵注冊(cè)數(shù)據(jù),或者還在用 Excel 做主要終點(diǎn)的分析,真的該停下來(lái)想想了。數(shù)據(jù)不會(huì)說(shuō)謊,但處理數(shù)據(jù)的方法可以。在康茂峰看來(lái),找一個(gè)靠譜的統(tǒng)計(jì)伙伴,不是為了數(shù)據(jù)漂亮,而是為了在監(jiān)管面前睡得著覺(jué),在患者面前抬得起頭。這大概就是這門生意最實(shí)在的意義。
