閑話CAT(5):Déjà Vu——或許是最早的CAT支持下的MT+PE應用實例

Déjà Vu 有一個非常特殊的功能,就是能夠把當前翻譯項目中的每一個文件都導出為一種雙語格式(Bilingual File),Déjà Vu X將其稱作“外部視圖”(External View)——這個名詞其實比現在更流行的“雙語格式”更易于理解。這種雙語文件是以rtf格式保存的。rtf文件格式是Rich Text Format的縮寫,即“富文本格式”。這是一種開放標準的文件格式,最典型的應用場景就是可以用Word等絕大多數文字處理軟件將其打開并編輯。基于此特性,它往往用于不同的文字處理軟件之間交流文件內容的一種形式,因為它幾乎可以全面的再現絕大多數文字處理軟件所呈現的版面格式等。

導出雙語格式界面

RTF是Rich Text Format的縮寫,意即多文本格式。這是一種類似DOC格式(Word文檔)的文件,有很好的兼容性,使用Windows“附件”中的“寫字板”就能打開并進行編輯。使用“寫字板”打開一個RTF格式文件時,將看到文件的內容;如果要查看RTF格式文件的源代碼,只要使用“記事本”將它打開就行了。這就是說,你完全可以像編輯HTML文件一樣,使用“記事本”來編輯RTF格式文件。

Déjà Vu導出的這種雙語格式是一種表格,主要分為五欄。第一欄是每一句話的ID,也就是它的編號;第二欄是Source Langue,也就是原文;第三欄是Target Language;第四欄是Comments,用于在里面書寫一些評語,第五欄是表示翻譯的狀態。導出的雙語文件可以用Word、WPS、Open Office等打開進行編輯。

Déjà Vu X3的雙語文件導出對話框
Déjà Vu導出的雙語文件格式

設計這種雙語文件格式的導出和導入功能,最初的目的是為了讓未使用Déjà Vu的用戶也能夠參與翻譯項目的審校工作。當一個文件的初稿完成之后,譯者可以將其導出為這種雙語文件,發給審校人員。審校人員不需要專門去學習或者安裝Déjà Vu就可以在電腦上使用任意一款支持rtf格式的文字編輯軟件打開編輯。這樣一來,就可以讓沒有學過,也來不及培訓Déjà Vu應用的譯審參與到翻譯審校的流程中來。

在大約2005年前后,我開始注意到谷歌機器翻譯已經有了根據它來做“譯后編輯”(PE)應用價值。它所提供的譯文雖然還很生硬,但是從里面已經能夠采集到大量的可用語塊,而且采集到的語塊往往多于采用比較完善的術語庫所能獲得的文字數。這樣一來,對于一個熟練的譯員而言,在谷歌機器翻譯的基礎上進行編輯,稍加訓練和適應,就能夠獲得比通過術語庫所得的效率提升得更多的效率。

于是乎,我就開始嘗試在谷歌機器翻譯的基礎上進行編譯。但是,那個時候幾乎任何一款CAT軟件都尚不支持直接引用谷歌機器翻譯的內容。怎么辦呢?我開始從這種雙語文件身上打主意,嘗試能不能讓谷歌翻譯來處理這種文件。
最開始的思路,是把它上傳到谷歌翻譯工具包,用翻譯工具包自動翻譯。翻譯完成的文件,原文列的內容已經變成了譯文,把這一列的內容復制,重新粘貼到原始的、未經翻譯的雙語文件的譯文列,這樣就形成了原文和譯文都有的雙語文件。

利用谷歌翻譯RTF雙語文件

后來我又發現,如果使用谷歌的Chromo瀏覽器,可以直接將原文列復制粘貼到谷歌機器翻譯頁面,翻譯完成之后復制譯文,然后在雙語文件當中選擇對應的單元格并按粘貼快捷鍵——注意,這里需要嚴格對應,如我們選擇的原文是從編號1到100的單元格,那么此時在粘貼之前也要選擇對應目標語欄的1-100的單元格。然后按ctrl+V的粘貼快捷鍵,就能夠把譯文內容嚴絲合縫地粘貼進去。

另外一點要注意的就是,谷歌的Chrome瀏覽器,或者Safari瀏覽器,和Word配合起來才能產生這樣的粘貼效果。如果使用IE瀏覽器直接粘貼,就會使每一個單元格內都粘貼上全部的譯文。經過研究發現,如果使用IE瀏覽器可以先借到純文本的編輯器,把它粘貼到文本編輯器里,然后重新復制再回過來粘貼,就可以實現和Chrome瀏覽器中復制再回Word粘貼一樣的效果了。相應的,大家如果使用的文件編輯器和文字處理軟件不是Microsoft Word,而是其他的比如WPS或者OpenOffice,可能也會有不同的特性,需要摸索掌握其規律。

不管怎樣,通過這樣的處理,我們就能夠很順利的把谷歌機器翻譯結果粘貼到雙語文件的譯文區,粘貼保存完成后,把雙語文件重新導入翻譯項目,我們的翻譯項目也就有了谷歌翻譯的譯文。

這個實驗成功之后,我把這個處理的方法告訴了山東交通學院外語系的李慶慶老師。李慶慶老師對于軟件的應用和編程都有一些獨到之處。他就說,他可以研究一下Deja Vu的項目文件格式,看看能不能直接調用谷歌的API。他成功了——他發現能夠用外部程序直接打開Déjà Vu的項目翻譯文件這個數據庫,然后調用谷歌的機器翻譯API,為這個數據庫里的譯文區直接采集灌入谷歌的機器翻譯。他寫的這款小程序非常的精巧,有了這款小應用,我只需要把整個的翻譯項目拖放進去,它就能夠自動填入谷歌翻譯的結果。不經意間,我和李慶慶老師的探索,幾乎就成了最早的把機器翻譯融入到應用計算機輔助翻譯的社科圖書翻譯實踐中的案例。

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 228,156評論 6 531
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 98,401評論 3 415
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 176,069評論 0 373
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 62,873評論 1 309
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 71,635評論 6 408
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 55,128評論 1 323
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,203評論 3 441
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 42,365評論 0 288
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 48,881評論 1 334
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 40,733評論 3 354
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 42,935評論 1 369
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,475評論 5 358
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 44,172評論 3 347
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,582評論 0 26
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 35,821評論 1 282
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 51,595評論 3 390
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 47,908評論 2 372

推薦閱讀更多精彩內容