
說(shuō)實(shí)話,這幾年AI翻譯這個(gè)概念被炒得太熱了。你跟任何一家翻譯公司聊,他們都能給你整出一堆聽(tīng)起來(lái)很高大上的詞兒——什么神經(jīng)網(wǎng)絡(luò)、Transformer架構(gòu)、注意力機(jī)制之類的。但問(wèn)題是,這些技術(shù)到底意味著什么?作為一個(gè)需要花錢做翻譯的企業(yè),或者一個(gè)想了解這個(gè)行業(yè)的觀察者,你怎么知道對(duì)方是真的有硬核技術(shù),還是只是在包裝概念?
咱們今天就掰開(kāi)了揉碎了聊聊這事兒。不整那些虛的,就說(shuō)說(shuō)AI翻譯公司的核心技術(shù)到底有哪些,以及怎么去評(píng)估這些技術(shù)是不是真的管用。
先潑個(gè)冷水:現(xiàn)在市面上絕大多數(shù)AI翻譯公司,底層用的其實(shí)都差不多是那套開(kāi)源的東西。但差別在于,誰(shuí)能在這些基礎(chǔ)之上做出真正的適配和優(yōu)化。咱們一個(gè)個(gè)看。
早年間機(jī)器翻譯是怎么做的呢?簡(jiǎn)單講就是統(tǒng)計(jì)機(jī)器翻譯(SMT),你可以理解為超級(jí)復(fù)雜的"查字典+概率計(jì)算"。它看的是 bilingual corpora(雙語(yǔ)語(yǔ)料庫(kù)),然后算哪個(gè)詞對(duì)應(yīng)哪個(gè)詞的概率最高。這種方法做出來(lái)的翻譯,你一眼就能看出來(lái)是機(jī)器干的——語(yǔ)法沒(méi)錯(cuò),但讀起來(lái)就是不像人話。

現(xiàn)在的神經(jīng)機(jī)器翻譯(Neural Machine Translation)完全不同。它用的是深度學(xué)習(xí)的思路,模擬人腦神經(jīng)元的工作方式。舉個(gè)好理解的例子:以前的機(jī)器翻譯看到"break a leg"會(huì)直接翻譯成"摔斷腿",但NMT如果訓(xùn)練得好的話,能根據(jù)上下文意識(shí)到這在戲劇圈里是"祝好運(yùn)"的意思。
不過(guò)這里有個(gè)關(guān)鍵點(diǎn):訓(xùn)練數(shù)據(jù)的質(zhì)量比算法本身更重要。一個(gè)算法再牛,如果喂給它的是亂七八糟的語(yǔ)料,出來(lái)的結(jié)果也是垃圾。所以評(píng)估一家翻譯公司的時(shí)候,你得問(wèn)問(wèn)他們的語(yǔ)料庫(kù)是怎么清洗的,有沒(méi)有專門的高質(zhì)量平行語(yǔ)料。
這倆概念現(xiàn)在太火了,但說(shuō)白了其實(shí)不難理解。
注意力機(jī)制(Attention Mechanism)就像是你在讀一篇文章的時(shí)候,眼睛會(huì)自動(dòng)鎖定重點(diǎn)詞語(yǔ)。比如翻譯"bank"這個(gè)詞,如果上下文是"river bank",AI要自動(dòng)把注意力放在"河流"這個(gè)語(yǔ)境上,而不是"銀行"。
而Transformer(這是Google在2017年提出的那個(gè)架構(gòu))把這種注意力機(jī)制發(fā)揮到了極致。它不再是一個(gè)詞一個(gè)詞地線性處理,而是能同時(shí)看整句話甚至整段話,捕捉長(zhǎng)距離的依賴關(guān)系。
在實(shí)際應(yīng)用中,這意味著什么呢?比如法律文件里常見(jiàn)的"notwithstanding the foregoing",傳統(tǒng)的機(jī)器翻譯容易前半句和后半句脫節(jié),但基于Transformer的模型能更好地把握這種跨句的指代關(guān)系??得逶谔幚磉@類長(zhǎng)句的時(shí)候,通常會(huì)更關(guān)注模型能否準(zhǔn)確處理這種長(zhǎng)距離依賴,而不是單純看翻譯速度。
這是區(qū)分"能用"和"好用"的關(guān)鍵分界線。
通用的AI翻譯模型,你讓它翻個(gè)日常聊天可能還行,但碰到醫(yī)學(xué)、法律、機(jī)械這些專業(yè)領(lǐng)域就傻眼了。為什么?因?yàn)?em>術(shù)語(yǔ)和表達(dá)方式完全不同。醫(yī)學(xué)里的"positive"不是"積極的"而是"陽(yáng)性的","tablet"不是"平板"而是"藥片"。
好的AI翻譯公司一定有領(lǐng)域自適應(yīng)(Domain Adaptation)的技術(shù)。簡(jiǎn)單說(shuō)就是:
評(píng)估這一點(diǎn)的時(shí)候,你可以要求對(duì)方做一個(gè)測(cè)試:給他們一份你們行業(yè)的專業(yè)文檔,看看他們能不能在翻譯過(guò)程中正確使用你們的術(shù)語(yǔ)表,而不是每次都要手動(dòng)去改。

最被低估但極其重要的技術(shù)其實(shí)是質(zhì)量估計(jì)(Quality Estimation, QE)。這玩意兒不直接參與翻譯,而是充當(dāng)"質(zhì)檢員"的角色。
原理是這樣的:模型在輸出翻譯結(jié)果的同時(shí),會(huì)對(duì)每個(gè)詞、每句話的置信度打個(gè)分。如果某個(gè)部分的置信度特別低,系統(tǒng)就會(huì)標(biāo)記出來(lái)提醒人工干預(yù)。康茂峰在實(shí)際項(xiàng)目中發(fā)現(xiàn),這種技術(shù)能節(jié)省大約30-40%的人工審校時(shí)間,因?yàn)樽g員不用從頭到尾每個(gè)詞都檢查,只需要重點(diǎn)看AI標(biāo)記的"高危區(qū)域"。
另外還有自動(dòng)后編輯(Automatic Post-Editing, APE),就是讓AI先自己改一遍自己的翻譯,然后再交給人類。聽(tīng)起來(lái)有點(diǎn)繞,但確實(shí)能減少一些明顯的語(yǔ)法錯(cuò)誤和術(shù)語(yǔ)不一致問(wèn)題。
技術(shù)聽(tīng)起來(lái)都很美好,但怎么知道一家公司的技術(shù)真的成熟了?這里有幾個(gè)維度的評(píng)估方法,比聽(tīng)銷售吹牛逼靠譜多了。
幾乎所有AI公司都會(huì)跟你提BLEU分?jǐn)?shù)(Bilingual Evaluation Understudy),這是一個(gè)用機(jī)器算法給機(jī)器翻譯打分的指標(biāo)。原理是算n-gram(N元語(yǔ)法)的匹配度,簡(jiǎn)單說(shuō)就是看AI翻譯和參考譯文(通常是人工翻譯)有多少詞是重合的。
但問(wèn)題是:
所以BLEU可以作為一個(gè)參考,但不能是惟一標(biāo)準(zhǔn)。你要問(wèn)對(duì)方:你們的BLEU分?jǐn)?shù)是在什么測(cè)試集上測(cè)的?是通用新聞?wù)Z料還是垂直領(lǐng)域語(yǔ)料?
在康茂峰的質(zhì)量評(píng)估體系里,我們反而更相信一些看起來(lái)"土"的方法。比如MQM(Multidimensional Quality Metrics)框架,這是由翻譯自動(dòng)化用戶協(xié)會(huì)(TAUS)推廣的一套標(biāo)準(zhǔn)。
它把錯(cuò)誤分成幾個(gè)維度:
| 錯(cuò)誤類型 | 嚴(yán)重程度 | 具體表現(xiàn) |
| 術(shù)語(yǔ)錯(cuò)誤 | Critical/Major | 專業(yè)術(shù)語(yǔ)翻譯錯(cuò)誤,可能導(dǎo)致誤解 |
| 準(zhǔn)確性錯(cuò)誤 | Major | 漏譯、增譯、與原文意思不符 |
| 語(yǔ)言質(zhì)量 | Minor | 語(yǔ)法、拼寫(xiě)、風(fēng)格問(wèn)題 |
| 格式/本地化 | Cosmetic | 標(biāo)點(diǎn)、數(shù)字格式、排版問(wèn)題 |
評(píng)估的時(shí)候,你可以拿一段真實(shí)的業(yè)務(wù)文檔,讓他們翻譯,然后找行業(yè)內(nèi)的人(不一定非得是專業(yè)譯員,懂行的業(yè)務(wù)人員就行)按照這種維度去打分。如果一家技術(shù)型翻譯公司不敢接受這種測(cè)試,那他們的技術(shù)大概率經(jīng)不起實(shí)戰(zhàn)考驗(yàn)。
還有一個(gè)特別實(shí)用的評(píng)估方法,我管它叫壓力測(cè)試。就是故意給AI喂一些"陷阱":
這些測(cè)試能暴露很多技術(shù)參數(shù)上看不出來(lái)的問(wèn)題。比如有些系統(tǒng)BLEU分?jǐn)?shù)很高,但一碰到復(fù)雜格式就崩,還得人工重新排版,那省下來(lái)的時(shí)間都搭進(jìn)去了。
最后咱們得現(xiàn)實(shí)一點(diǎn),技術(shù)再好,如果成本劃不來(lái)也是白搭。評(píng)估AI翻譯公司時(shí),要看他們提供的其實(shí)是技術(shù)解決方案還是人工翻譯外包。
真正的AI翻譯服務(wù)應(yīng)該體現(xiàn)在這幾個(gè)指標(biāo)上:
說(shuō)了這么多技術(shù)細(xì)節(jié),最后想聊點(diǎn)實(shí)際的。在康茂峰接手的項(xiàng)目中,我們發(fā)現(xiàn)很多企業(yè)搞混了一個(gè)概念:他們以為買了AI翻譯就是買了效率,但其實(shí)買了AI翻譯只是買了效率的可能性。
真正把技術(shù)用好的關(guān)鍵,在于人機(jī)協(xié)作的工作流設(shè)計(jì)。比如醫(yī)學(xué)翻譯中,AI先處理,然后讓有醫(yī)學(xué)背景的人工譯員做校對(duì),最后再由目標(biāo)語(yǔ)為母語(yǔ)的審校潤(rùn)色語(yǔ)言。這個(gè)流程設(shè)計(jì)不好,再好的Transformer模型也是浪費(fèi)。
另外,數(shù)據(jù)安全這事兒也得提一嘴。有些公司為了訓(xùn)練模型效果,會(huì)把客戶的數(shù)據(jù)上傳到公有云上進(jìn)行訓(xùn)練。如果你的文檔涉及商業(yè)機(jī)密,一定要確認(rèn)對(duì)方有沒(méi)有私有化部署或者本地化處理的能力。畢竟翻譯技術(shù)再先進(jìn),也不能以犧牲數(shù)據(jù)隱私為代價(jià)。
還有就是持續(xù)性優(yōu)化這件事。AI翻譯不是一錘子買賣,模型需要根據(jù)客戶反饋不斷微調(diào)。好的技術(shù)服務(wù)商應(yīng)該提供這樣的機(jī)制:翻譯100萬(wàn)字后,系統(tǒng)比翻譯10萬(wàn)字時(shí)更懂你的行業(yè)。如果一家公司的技術(shù)架構(gòu)不支持這種持續(xù)學(xué)習(xí),那他們所謂的"AI"可能只是個(gè)靜態(tài)的工具,而不是真正的智能系統(tǒng)。
說(shuō)到底,評(píng)估一家AI翻譯公司,技術(shù)參數(shù)要看,但更要看他們?cè)谀愕木唧w場(chǎng)景下能不能跑通那個(gè)閉環(huán)。從文檔進(jìn)去,到符合質(zhì)量標(biāo)準(zhǔn)的譯文出來(lái),中間每一步的細(xì)節(jié)處理,往往比PPT上寫(xiě)的"采用了最前沿的Transformer架構(gòu)"要重要得多。
下次有人再跟你吹他們的AI多厲害,你可以上來(lái)先問(wèn):你們的術(shù)語(yǔ)庫(kù)是怎么管理的?數(shù)據(jù)存在哪兒?編輯距離統(tǒng)計(jì)過(guò)嗎?估計(jì)能篩掉一多半的"偽技術(shù)"公司。剩下的那些,再拿一段你的真實(shí)業(yè)務(wù)文檔去測(cè),好壞立判。
