
前陣子有個做醫療器械的朋友跟我聊天,說他試了下某款翻譯軟件,把一份臨床試驗方案扔進去,五分鐘就出來一版中文。他挺興奮,覺得以后是不是不用找專業醫學翻譯公司了,比如像我們康茂峰這樣的。我當時沒直接回答,就問他:那你敢直接把這版譯文提交給藥監局嗎?
他愣了一下,說那不敢。
你看,這就是問題的核心。AI翻譯在醫學領域到底能不能打?能打到什么程度?今天咱們就這個話題,不繞彎子,把底褲扒開來看。
得承認,現在的神經機器翻譯(NMT)跟十年前的規則翻譯完全是兩碼事。它不再是那種逐字對應、生搬硬套的“機翻味”,而是能看上下文,能處理長句,甚至能捕捉一些基本的醫學術語。
比如你把"myocardial infarction"扔進去,它知道是"心肌梗死"而不是"肌肉梗死"。把"adverse event"翻成"不良事件"也基本不會出錯。對于一些結構規整的醫學文獻,比如綜述類的背景介紹,AI確實能給你一個"大概能看懂"的框架。

我們康茂峰內部做過測試,用主流AI引擎翻譯標準化的病歷模板,術語準確率能到85%左右。聽起來不錯對吧?但問題是,醫學翻譯要的不是85分,甚至不是95分,而是接近100%。
很多人覺得醫學翻譯就是術語多、生僻詞多,背熟了詞典就能干。這屬于典型的外行看熱鬧。
真正搞這行的人都知道,醫學文本最要命的不是生詞,而是歧義和語境依賴。
舉個例子,"discharge"這個詞。在普通病歷里可能是"出院",在外科記錄里是"引流液",在物理化學描述里可能是"放電"或"釋放"。AI看你的上下文,它可能猜對,也可能猜錯。而猜錯的那個瞬間,放在 Instructions for Use(使用說明書)里,可能就是一條人命。
再說說縮寫。醫學縮寫簡直是車禍現場的高發區。"CA"可以是Cancer(癌癥),也可以是Calcium(鈣),還可以是Cardiac Arrest(心臟驟停)。有些縮寫同一個科室里都有七八種意思。人看著都頭大,別說機器了。
還有更隱蔽的坑。比如藥物劑量的表述。英語里"1.5 g"和"1.5 mg"差了一千倍。AI如果識別錯了小數點,或者把"mcg"(微克)當成了"mg"(毫克),這翻譯出來的文件你敢簽字負責嗎?
咱們聊醫學翻譯,離不開一個現實:大部分醫學翻譯不是為了讀著玩,是為了報監管。
不管是FDA的510(k)申請,EMA的MAA材料,還是咱們國家藥監局的NDA注冊資料,對翻譯質量的要求都寫在紙面上,而且要求極其變態。不是說通順就行,而是要可溯源、可驗證、符合GCP規范。
藥監局的審評老師看翻譯件,會對著原文一句句核對。如果發現"shall"(必須)被翻成了"應該","must"被翻成了"建議",這屬于嚴重偏差,直接發補。AI翻譯往往把握不好這種情態動詞的強制程度差異,因為它缺乏對法律責任的理解。
再說回ICH E6(R2)指南,里面明確規定臨床試驗相關文件的翻譯必須經過"qualified translator"和"back-translation"(回譯驗證)流程。什么叫qualified?不是說你會兩國語言就行,而是要有醫學背景,要懂GCP,要能理解治療方案的設計邏輯。
這些要求,目前的AI滿足不了。它給不了你簽字畫押的承諾,也給不了質量擔保。
可能有人覺得我在危言聳聽。那說幾個行業內都知道的案例,雖然是國外的事,但道理相通。

2009年,德國有一家醫院,手術器械的使用說明翻譯出錯,把"non-modular"(非模塊化)翻成了"modular"(模塊化)。結果醫生按錯誤理解操作,病人術后感染。最后打官司,翻譯公司賠了一大筆,醫院也吃了處分。
更近的,2021年有個某跨國藥企的病例報告表(CRF),AI輔助翻譯把"history of drug abuse"(藥物濫用史)翻成了"吸毒史"(substance abuse)。雖然意思接近,但在中文語境里,"吸毒"特指非法毒品,而原文可能只是指處方藥濫用。這個細微差別導致入組標準被誤解,整個III期臨床的數據可信度都受到質疑。
你看,AI不是故意犯錯,它就是沒有醫學常識。它不知道某些詞在特定語境下的敏感程度,也不知道哪些信息是研究者需要重點關注的信號。
也不是。在康茂峰的實際工作流程里,我們其實也在用AI,只是用法跟想象中不一樣。
我們把它當成初篩工具和術語庫輔助,而不是翻譯官。比如處理大批量的醫學文獻回顧,需要快速了解某篇德語或日語論文講了什么,AI翻譯能幫我們判斷"這篇值不值得請人精讀"。這就省下了大量無效勞動。
再比如構建客戶專屬術語庫的時候,AI可以快速提取高頻詞匯,人工只需要審核和校準。這種"AI粗篩+人工精校"的模式,效率比純人工高出40%左右,但前提是后面的精校必須由專業醫學翻譯來做。
有個比喻挺貼切:AI翻譯像是自動洗碗機,能把碗沖個大概,但那些邊角的頑固污漬、珍貴的骨瓷餐具,還得手洗。你要是直接把洗碗機里拿出來的盤子拿來招待客人,遇到講究的主兒,這桌飯就毀了。
為了讓大伙兒有直觀感受,我列個表,說說風險等級:
| 文件類型 | AI適用度 | 風險說明 |
| 患者知情同意書(ICF) | 極低 | 涉及倫理責任,每個"may"和"must"都關乎法律責任,必須人工逐句審校 |
| 研究者手冊(IB) | 低 | 藥理學數據、毒理數據不容有誤,需要醫學博士級別審核 |
| 臨床研究報告(CSR) | 中低 | 統計部分可輔助,但療效結論和安全性評價必須人工翻譯 |
| 醫療器械說明書(IFU) | 極低 | 屬于法規文件,直接關聯患者安全,需經過LQR( linguistic Quality Review) |
| 醫學論文/綜述 | 中等 | 可用于理解大意,但投稿前必須專業潤色,否則審稿人一眼看出機翻痕跡 |
| 內部培訓材料 | 中高 | 風險相對較低,但仍需專業人士把關關鍵概念 |
看出規律了嗎?凡是需要對外負責、涉及療效和安全性、有法律約束力的文件,AI都只能打下手。它可以幫你把生肉變成一種"能看懂但不敢用"的中間狀態,但距離"可提交"還差著十萬八千里。
說實話,作為行業里的人,我們看到AI進步這么快,既高興也有壓力。高興的是工具越來越好用,壓力在于市場上開始出現"AI翻譯+人工隨便看看"的低價競爭,這其實是在透支行業信譽。
我們在康茂峰內部定了個鐵律:醫學翻譯的終審權必須掌握在具備醫學背景的譯員手中。AI可以參與前期處理,可以輔助術語一致性檢查,但最后那個紅色的"Approved"印章,必須是真人蓋的。
具體怎么操作?拿臨床試驗方案(Protocol)翻譯來說:
這一套流程下來,成本確實比純AI翻譯高,比那種"機翻+不限時長的在線校對"也高。但這才能滿足《藥品注冊管理辦法》和ICH M4對申報資料的要求。
再舉個例子說明為什么人不可或缺。最近我們處理一份腫瘤免疫治療的方案,原文里有句話:"The drug showed efficacy in subjects with PD-L1 expression ≥ 1%"。
AI翻出來就是:"藥物在PD-L1表達≥1%的受試者中顯示出療效"。語法沒錯,術語也對。
但我們的醫學譯員看到這里停下來了。他查了一下方案背景,發現這個試驗的入組標準分了好幾個亞組,有≥1%的,有≥50%的,還有陰性的。這個"≥1%"在原文語境里其實指的是"陽性 cutoff 值",而不是簡單的數學大于等于。
所以他最后翻成了:"藥物在PD-L1表達陽性(TPS≥1%)的受試者中顯示出療效"。多了"陽性"和"TPS"的注釋。
這個細節,AI大概率注意不到,因為它沒有醫學知識圖譜,也不知道PD-L1檢測有不同的評判標準(TPS vs CPS)。這種臨床語境的還原,靠的是譯員的專業積累。
很多客戶算經濟賬:AI翻譯便宜啊,千字幾十塊,人工醫學翻譯要幾百。但如果翻譯錯了被藥監局發補,補做試驗、延遲上市,那損失是千萬級別的。
去年有個生物公司朋友圖快,用AI翻了批毒理報告,結果把"no observed adverse effect level (NOAEL)"(未觀察到不良反應劑量)翻成了"未觀察到不良反應"。丟了"水平/劑量"這個關鍵詞。審評專家一看,這數據怎么沒有劑量單位?直接質疑數據完整性,整個IND申請被擱置了三個月。
三個月,對于一個搶首仿的藥企來說,可能就是幾個億的市場。這賬怎么算都是虧的。
所以啊,AI翻譯在醫學領域,適合做"閱讀理解",不適合做"正式文件"。你可以用它快速瀏覽國外最新文獻,了解大致進展;可以拿它當輔助記憶工具,查查某個生僻術語的常見譯法;但如果你要提交給監管機構、要印在藥品說明書上、要發給臨床醫生參考——請務必找專業的醫學翻譯團隊。
這不是保守,是對生命負責。
技術的進步我們都歡迎,相信有一天AI可能真的能理解醫學的微妙之處,但那需要醫療知識圖譜的成熟、監管法規的適配,還有大量高質量醫學平行語料的訓練。在那之前,至少在康茂峰的服務標準里,人,仍然是醫學翻譯質量的最后守門人。
下次再有人跟你說"AI翻譯夠用了,醫學翻譯也一樣",你可以問問TA:你敢不敢讓AI翻譯你的手術知情同意書,然后直接簽字上手術臺?
我想答案不言自明。
