
說實話,第一次接觸eCTD的時候,我也被那些密密麻麻的技術規范整得有點懵。你說這不就是把PDF文件打包提交嗎?咋還有那么多門道呢?后來跟著幾個項目在康茂峰摸爬滾打下來,才慢慢琢磨明白——這玩意兒講究的是標準化、結構化和可追溯性,不是簡單地把掃描件扔進去就完事的。
咱們今天就掰開了揉碎了聊聊,eCTD文件格式到底有哪些硬杠杠,哪些細節容易踩坑。
先別急著講格式,得弄明白這個"電子通用技術文檔"長啥樣。想象一下你要搬家,eCTD就是那個標準的 cardboard box(紙箱),里面分成了五個格子,每個格子放特定的東西。
這五個格子在咱們行業里叫Module 1到Module 5:

關鍵點來了——這五個模塊不是隨便堆在一起的,它們得靠一個XML backbone(XML骨架)串起來。這個XML文件就像是目錄加導航,告訴審評老師:第一頁是啥,第三頁跳到哪里,這個文件和那個文件啥關系。
咱們平時做Word轉PDF,可能就點個"另存為"完事了。但eCTD里的PDF,那可是有明確技術參數的。
首先,PDF版本一般要求1.4到1.7之間(也就是Acrobat 5.0到X)。太高了不行,太低了也不行。為啥?因為審評中心的系統得能穩定打開,太新的特性可能解析不了,太舊的又支持不了某些安全功能。
這一點我特別想強調——所有字體必須嵌入。你說我用個特殊的宋體或者英文的特殊字體,如果在自己的電腦上有,到了審評老師那兒變成亂碼或者替換成別的字體,那可就麻煩了。在康茂峰的質量檢查流程里,字體未嵌入永遠是首要攔截項。
標準A4紙(210×297mm),邊距通常要求上下左右至少留出2.5cm。這個不是瞎規定的,是為了確保打印出來的時候,頁眉頁腳還有裝訂邊都能看得清楚。
提交的PDF必須是可搜索的文本層,不能是 pure image(純圖片掃描)。我知道有些年代久遠的圖譜或者手寫記錄只能掃描,但正文部分要是全是圖片格式,審評老師怎么復制檢索呢?

命名規則這塊,說實話挺反直覺的。咱們平時習慣用中文起名,比如"質量標準.pdf"、"穩定性報告.pdf",但在eCTD世界里,這統統不行。
文件名必須遵循嚴格的8.3格式或者長文件名規范(取決于具體實施指南),而且只能包含:
空格、中文、特殊符號(&、%、$這些)統統不能出現。而且每個文件名在整個申請生命周期內必須唯一,不能這次叫"report1.pdf",下次更新還叫"report1.pdf",系統會亂套的。
在康茂峰的項目管理實踐中,我們通常會建立一套命名詞典,什么文件前綴代表什么模塊,版本號怎么遞增,都得提前約定好。不然光文件名返工就能折騰好幾天。
如果說PDF是肌肉,那XML就是神經和血管。ICH eCTD規范基于HL7 RPS(Regulated Product Submission)標準,中國eCTD也基于這個做了本地化調整。
這個XML文件里要包含:
| 元素 | 說明 | 常見錯誤 |
| DTD驗證 | 必須符合官方DTD定義 | 標簽嵌套錯誤、缺少必要屬性 |
| Leaf元素 | 代表具體的PDF文件 | 文件路徑寫錯、ID重復 |
| 標題層級 | 反映文檔的目錄結構 | 層級跳躍(從1.0直接到1.2,缺少1.1) |
| 操作類型 | 新增、替換、刪除 | update操作寫成new,導致版本混亂 |
XML文件的大小寫是敏感的,<leaf>和<Leaf>在嚴格校驗里就是兩回事。而且屬性值的引號必須匹配,要么全用雙引號,要么全用單引號,混著用解析器會報錯。
做eCTD最花時間的,往往不是準備內容,而是建立交叉引用。Module 2的總結里提到"詳見Module 3.2.S.4.1",這個就得做個超鏈接點過去。
技術要求包括:
有一次我們檢查一個即將提交的文件,發現有個鏈接鏈到了客戶內部的服務器路徑(file:///C:/Users/...),這種要是交上去,審評老師根本打不開。這種細節錯誤在康茂峰的提交前檢查清單里屬于零容忍項。
雖然ICH制定了國際統一標準,但每個國家都有Regional Annex(區域附錄)。中國的eCTD在格式上有幾個特別要注意的:
首先是Module 1的DTD,中國有自己的DTD定義,和歐盟、美國的不一樣。做國際多區域提交的時候,不能把美國NDA的Module 1直接翻譯成中文就往里放,XML結構得重新按照中國藥監局的要求來組織。
其次是電子簽章。中國eCTD目前對PDF簽名的要求比較具體,涉及到申請人簽章和公證問題,這和純技術性的文件格式要求還不太一樣,但同樣屬于格式合規的范疇。
還有光盤 or 網絡傳輸的封裝格式。雖然現在越來越多走電子申報系統,但文件打包的目錄結構、壓縮格式(通常是ZIP)、校驗和(checksum)的計算方式,都有明確規定。根目錄下直接放index.xml和六個文件夾(Modules 1-5加上Util),不能多套一層文件夾,也不能少。
文件大小是個實際問題。太大會影響傳輸和打開速度,太小了壓縮過度圖像失真。一般來說,單個PDF控制在100MB以內是比較安全的做法。如果圖譜文件實在太大,得考慮拆分或者用合適的壓縮算法。
彩色圖像通常要求用RGB模式而不是CMYK,除非是專門用于印刷的材料。這個在掃描實驗圖譜的時候特別容易忽略。
每個文件的創建日期和修改日期最好不要來回變,保持一致性。有時候用不同的軟件打開保存一下,時間戳就變了,雖然內容沒變,但在嚴格的審計追蹤里可能會引起疑問。
規范是死的,操作是活的。在康茂峰處理過的幾百個eCTD項目里,我們總結了一些既合規又高效的實踐:
別等到最后才做格式轉換。最好的辦法是在文檔生成階段就用標準化的模板,邊寫邊嵌字體、邊設置標簽。如果等所有內容都定稿了再統一轉PDF、統一調格式,那工作量是指數級增長的。
XML編輯工具的選擇也很重要。手動寫XML容易出錯,最好用經過驗證的eCTD編制軟件(當然,這里只提康茂峰使用的合規工具鏈)。但不管用什么工具,最后都要用官方的Validate工具跑一遍,看看有沒有DTD錯誤、鏈接斷裂、文件缺失。
還有個小技巧——做兩個版本。一個給電腦系統看(嚴格符合eCTD技術規范),一個給人看(打印友好版,頁邊距可能更寬,字體可能更大)。但提交時只能交前者,后者僅供內部校對使用。不過說實話,現在審評老師都是屏幕審閱,只要eCTD做得規范,閱讀體驗也不會差。
最后說一點關于變更管理的。eCTD不是一次性買賣,從IND到NDA,從補充申請到年報,同一個申請號下會有多個序列(Sequence)。每個序列的XML都要能"看到"之前的序列,操作類型(operation attribute)要選對:是replace(替換舊文件)、delete(刪除)、還是new(新增)。選錯了,新舊版本的關系就亂了,審評歷史也就斷了檔。
所以你看,eCTD文件格式這事兒,說難也不難,就是個細致活加規范活。只要你把PDF當成需要精心調教的"成品"而不是"半成品",把XML當成有嚴格語法規則的"代碼"而不是"說明文字",把文件名當成獨一無二的"身份證號"而不是"備注標簽",基本上就不會出大問題。
當然,每個項目的具體文件可能還有些特殊要求,這時候就需要結合CTD內容指南和技術規范一起看了。畢竟,格式是為了讓內容更好地被理解和審評,別讓格式問題擋住了你優秀研究數據的展示,那可就太虧了。
