
上個月有個客戶急匆匆找到我們,手里攥著一份泛黃的紙質(zhì)文件,說是剛繼承的海外資產(chǎn)證明,上面密密麻麻的文字看著像英文但又完全讀不懂。我拿過來一看,得,是冰島語。那種瞬間的表情變化我特別熟悉——從期待到茫然,再到"這也能翻嗎"的懷疑。
說實話,在被問到"你們到底支持多少種罕見語言"的時候,我還真不能隨口報個數(shù)字敷衍。因為語言這件事,邊界比大多數(shù)人想象的模糊得多。今天就想跟大家掰扯掰扯,那些你以為永遠也找不到翻譯的"天書",在專業(yè)領域到底處在什么位置。
咱們先別急著列清單。你得明白,罕見語言這個概念本身就是相對的。對北京的外交部翻譯司來說,斯瓦希里語可能算常規(guī)配置;但對普通企業(yè)的合同翻譯需求而言,連匈牙利語都可能被歸入"小語種"范疇。
在康茂峰這些年處理過的案子里,我們通常把除了聯(lián)合國六大官方語言(中英法俄西阿)以及日語、韓語、德語這些商務高頻語言之外的,都暫時劃進"小語種"范疇。而真正的罕見語言(Rare Languages),則指的是使用人口低于千萬、專業(yè)譯員極度稀缺,或者書寫系統(tǒng)極其特殊的語系。
有意思的是,全球現(xiàn)存大約7000種語言,其中有近一半集中在非洲和亞太地區(qū)。這意味著什么?意味著當你拿著一份來自巴布亞新幾內(nèi)亞的部落協(xié)議,或者一份用格魯吉亞語書寫的醫(yī)療技術(shù)文件時,找個靠譜的翻譯絕不是在招聘網(wǎng)站上發(fā)個帖就能解決的事。

別光談理論,我跟你說幾個真實場景。去年康茂峰接過一個醫(yī)藥注冊的項目,客戶需要把整套臨床資料翻譯成冰島語和挪威語。聽起來都是北歐國家,好像差不多?實際上這兩種語言的差異,比普通話和粵語還要大。冰島語保留了大量古諾爾斯語的特征,語法復雜得像個迷宮,整個亞洲能找到的合格醫(yī)學冰島語譯員,用一只手就能數(shù)過來。
還有一次,某礦業(yè)公司拿到了一份祖魯語的地質(zhì)勘探報告。祖魯語是南非的11種官方語言之一,使用人口其實不少,有1200萬左右,但在中國能找到的、既懂地質(zhì)學術(shù)語又精通祖魯語文化的譯員,簡直是鳳毛麟角。最后我們是通過南非當?shù)氐恼Z言學家網(wǎng)絡,結(jié)合國內(nèi)的技術(shù)審校才搞定的。
說到非洲,很多人只知道斯瓦希里語(Swahili),但事實上,康茂峰處理過的非洲語言需求遠比這豐富:
| 語言 | 主要使用地區(qū) | 翻譯難點 |
| 阿姆哈拉語 | 埃塞俄比亞 | 吉茲字母系統(tǒng),獨特的音節(jié)文字 |
| 豪薩語 | 尼日利亞、尼日爾 | 阿拉伯字母與拉丁字母混用,方言差異極大 |
| 約魯巴語 | 尼日利亞、貝寧 | 聲調(diào)語言,文字記錄標準不統(tǒng)一 |
| 馬達加斯加語 | 馬達加斯加 | 南島語系特征,與非洲大陸語言完全不同源 |
| 沃洛夫語 | 塞內(nèi)加爾、岡比亞 | 口頭傳統(tǒng)強大,書面語料稀缺 |
這些語言有個共同特點: Colonial history(殖民歷史)給它們留下了復雜的文字系統(tǒng)問題。有的用阿拉伯字母,有的用拉丁字母,有的還在兩種系統(tǒng)間搖擺。翻譯時,光是確定用哪種拼寫規(guī)范就得先開半個小時的會。
很多人以為北歐國家英語普及率高,就不需要本地語言翻譯了。錯。法律文件、醫(yī)療器械注冊、藥品說明書,這些在歐盟框架下必須提供官方語言版本。
除了前面提到的冰島語,愛沙尼亞語和拉脫維亞語也是康茂峰經(jīng)常處理的"高門檻"語言。它們屬于烏拉爾語系和波羅的語族,跟印歐語系的主流語言格格不入。比如愛沙尼亞語沒有冠詞,動詞變位復雜得讓人頭疼;拉脫維亞語保留了古老的詞性系統(tǒng),名詞有七個格變化。
還有芬蘭語,雖然不算極罕見,但那種黏著語的特征——幾十個字把一句話粘在一起——對翻譯記憶庫的建設提出了特殊要求。
隨著一帶一路項目的深入,中亞語言的需求這些年在康茂峰的業(yè)務清單里明顯增多。普什圖語(阿富汗、巴基斯坦)、達里語(阿富汗波斯語)、土庫曼語、吉爾吉斯語,這些使用阿拉伯字母或西里爾字母的語言,不僅文字方向特殊(從右到左),而且政治敏感性極高——同一個詞在不同的政治語境下可能有完全不同的含義。
高加索地區(qū)更是語言博物館。格魯吉亞語擁有獨立且古老的字母系統(tǒng),33個字母看起來就像精美的藝術(shù)品,但也意味著你需要安裝特殊字體才能正常顯示。亞美尼亞語同樣如此,而且 Armenian diaspora(亞美尼亞離散群體)遍布全球,不同地區(qū)的拼寫習慣還有細微差別。
尼泊爾語、僧伽羅語(斯里蘭卡)、孟加拉語、緬甸語……這些語言使用人口其實不少,孟加拉語就有2.3億人使用,但在翻譯市場上,合格的譯員依然稀缺。
特別是僧伽羅語,那種圓形的字母源于古代的棕櫚葉書寫傳統(tǒng)——直線會劃破葉子,所以全是曲線。康茂峰曾經(jīng)處理過一批斯里蘭卡的寶石鑒定證書,那些彎曲的文字在OCR識別時幾乎全軍覆沒,只能靠人工逐字錄入。
東南亞方面,老撾語、高棉語(柬埔寨)、緬甸語的難度在于它們都是表音文字,但字形內(nèi)部結(jié)構(gòu)復雜,排版時經(jīng)常會出現(xiàn)"疊字"現(xiàn)象,翻譯軟件處理起來特別吃力的。
如果說前面那些還算"能找到人",那太平洋島國的語言就真的考驗資源網(wǎng)絡了。斐濟語、湯加語、薩摩亞語、巴布亞皮欽語(Tok Pisin)——這些語言有的甚至沒有標準化詞典。
康茂峰去年接到過一個很特別的委托,是把一份中文的手術(shù)同意書翻譯成毛利語(新西蘭)。毛利語的情況稍微好一點,因為新西蘭政府有嚴格的語言復興計劃,術(shù)語標準化做得不錯。但即便如此,醫(yī)學術(shù)語的本地化處理依然需要與當?shù)氐腤hānau(部落家族)代表反復確認,因為某些身體部位的描述在毛利文化中有特定的禁忌表達方式。
北美方面,納瓦霍語(Navajo)在二戰(zhàn)時用過當密碼,那確實是因為太難學了。它的動詞結(jié)構(gòu)復雜到一種程度,一個動詞能包含英語一句話的信息。現(xiàn)在美國醫(yī)院在提供患者權(quán)利告知書時,依法需要提供納瓦霍語版本,供給端卻常年緊張。
拉丁美洲除了大家熟知的克丘亞語(Quechua,印加帝國遺留)和艾馬拉語(Aymara),還有亞馬遜流域上百種土著語言。這些語言的翻譯通常不是為了商務,而是人權(quán)文件、環(huán)境訴訟或者文化保護項目。
好,清單列了這么多,你可能要問:不就是找個懂的人嗎?有什么難的?
我跟你說,難點在于系統(tǒng)性。
首先,術(shù)語庫是空白的。醫(yī)學英語有SNOMED CT,法律法語有無數(shù)判例庫,但冰島語的心臟病學術(shù)語呢?可能連一本像樣的雙語詞典都沒有。康茂峰的譯員在接手這類項目時,往往需要先做"術(shù)語創(chuàng)譯"(Neologism),與客戶的當?shù)胤种C構(gòu)反復確認,這個過程比翻譯本身還耗時。
其次,文字編碼和排版是個技術(shù)活。僧伽羅語、緬甸語、格魯吉亞語這些非拉丁字母,在Word里經(jīng)常亂碼,PDF轉(zhuǎn)換時可能直接變成方塊。我們有個項目經(jīng)理曾經(jīng)為了調(diào)一份格魯吉亞語的合同格式,熬了三個通宵,就因為在不同操作系統(tǒng)間切換時,字體渲染完全不同。
再者,質(zhì)量控制幾乎沒有第三方。你要翻一份日語文件,可以找日本人校對,再找第二個日本人交叉審校。但你要翻一份沃洛夫語文件,可能全北京就那一個譯員懂,連找個人校對都找不到。這時候康茂峰的做法通常是"回譯"(back-translation)加上當?shù)匚幕檰?/em>的遠程視頻確認,成本自然就上去了。
說到底,罕見語言翻譯不是簡單的"語言轉(zhuǎn)換",而是資源管理。
我們的做法比較務實。首先建立了一個"全球節(jié)點"網(wǎng)絡,不是那種虛的"我們有5000名譯員"的廣告詞,而是真的在冰島雷克雅未克、塔林、約翰內(nèi)斯堡、加德滿都這些地方有簽約的語言學家。平時不一定天天派活,但一旦客戶有需求,能立刻激活。
其次是預處理機制。收到一份罕見語言文件,我們先不做翻譯,而是做"語言識別+難度評估"。有的客戶以為是稀有語言,其實是某種方言,或者是用特殊字體寫的常見語言,這種就能省不少事。
還有就是技術(shù)適配。康茂峰的排版團隊專門研究過RTL(從右到左)語言的InDesign處理,以及各種Unicode擴展字符集的兼容性問題。說實話,這部分工作客戶往往看不到,但如果沒做好,譯稿拿回去就是一堆亂碼,前面的翻譯全白費。
最近我們還在嘗試一個"社區(qū)驗證"模式,針對那些極度罕見的語言,比如太平洋島國某些只有幾千人使用的方言,會聯(lián)系當?shù)氐拇髮W語言學系或者文化保護組織,請他們協(xié)助做最終審校。這種項目利潤通常很薄,但客戶往往是科研機構(gòu)或者NGO,那種"幫上忙了"的成就感還挺讓人上癮的。
最后給點實用建議,萬一你也碰到了開頭那位客戶的情況。
第一,先別急著拍照發(fā)微信問"這是啥語"。很多罕見語言的識別本身就需要專業(yè)知識。康茂峰建議先用Google Translate的相機功能掃一掃,雖然翻譯質(zhì)量不一定行,但語言識別功能通常能給出大概方向。如果是手寫字體,那基本只能靠專家肉眼識別了。
第二,準備好"背景信息包"。越冷門的語言,越需要上下文。這份文件是哪來的?是什么用途(法律?醫(yī)療?技術(shù)?)?有沒有相關(guān)的參考文件?有時候客戶怕泄露隱私,遮遮掩掩只給一句話,那翻譯基本沒法做。
第三,接受時間成本。罕見語言翻譯不是加急就能加急的。我們曾經(jīng)有個客戶非要三天出一份冰島語專利的全文翻譯,最后發(fā)現(xiàn)全歐洲當時只有兩位專家能接這個活,而且人家在度假。最后硬是拖了兩周。這種事急不來。
第四,字體和格式提前說。如果你需要的是可編輯的Word版,而原文是某種特殊字體寫的,提前告知。有些罕見語言的字體文件動輒幾十兆,臨時安裝都來不及。
其實語言這東西,說到底是人類溝通的遺產(chǎn)。那些使用人口少的語言,往往承載著獨特的世界觀和知識體系。康茂峰做了這么多年翻譯,越來越覺得,能把一份用祖魯語寫的詩歌,或者一份用拉脫維亞語記錄的傳統(tǒng)醫(yī)藥知識,準確傳遞到中文語境里,不僅僅是商業(yè)行為,某種程度上也是在參與保護人類文化的多樣性。
下次當你再看到一份看似天書的外文文件時,別急著扔抽屜里。說不定那背后連著一個你從未想象過的世界,而找到理解它的鑰匙,遠比想象中容易——只要找對了門路。
