TM

翻譯記憶

TM,即翻譯記憶,它是一個存儲了一個個“段”的資料庫,這些存儲了源文本和相應的語言的翻譯,這個“段”就是翻譯單元。翻譯記憶可以是用於幫助翻譯人員翻譯已翻譯的句子,段落或類似句子的單元(標題或列表元素),從而大幅度減輕譯員的負擔。

簡介


TM(Translation Memory) 即翻譯記憶,使用它的軟體被稱也被成為TMM(Translation Memory Managers),這類軟體的代表是TRADOS,Trados 2007以前的版本的記憶庫文件格式也是TM格式,同時也被絕大多數的CAT軟體所支持。
塔多思(TRADOS)系列工具已經成為業界的標準,其核心技術——翻譯記憶(Translation Memory)是目前世界上唯一適合專業翻譯領域的計算機輔助翻譯技術。
TRADOS屬於翻譯記憶軟體,與金山詞霸不同,它不會自己給你翻譯文件,只是把你做過翻譯的內容記錄下來,SDL Trados 2007 以上版本可以在團隊工作時收集他們的翻譯,以建立語言資料庫(翻譯記憶庫或 TM)。
在此資料庫中,該軟體確定可重複使用的內容。當翻譯人員翻譯新內容並且遇到與已翻譯的句子相似或相同的句子時,該軟體自動提出建議的可重複使用內容。因此對於相同的句子,翻譯人員無需再次進行翻譯。翻譯人員可以根據需要隨時重複使用已翻譯的內容。翻譯團隊在翻譯記憶庫中輸入的內容越多,翻譯後面的項目就越快,從而有更多時間花在工作的創意方面。同時它可以有效地保留原有文件的格式,為翻譯工作省去很多麻煩。
而且,由於TM記憶庫的存在,可以很好地保持繼承性,尤其在諸如軟體的本地化翻譯等工程中,可以充分利用以前版本的記憶庫對原有文件的翻譯進行繼承,既節省了成本(已經翻譯過的語句不用再去翻譯),又保持了翻譯的一致性(不會出現同一語句在不同地方顯示為不同譯文的情況)。

使用翻譯記憶庫


譯者首先提供一段來源文字(亦即要拿來被翻譯的文字)給翻譯記憶庫,程序會先分析這段文字,試著在資料庫里找尋既有的翻譯區段是否與過去曾經翻譯過的文字相符。如果找到相符的舊有翻譯(legacy translation pairs),則會呈現出來給譯者檢閱。譯者可以選擇接受舊有的翻譯、拒絕、或是加以修改。若加以修改,則修改的版本也會被記錄並存進資料庫里。
某些翻譯記憶庫系統只會搜尋 100% 相符的文字,也就是說:只會將新的來源文字與資料庫內做精確的比對,只有完全相符的資料才會被提出。也有其他的系統會使用模糊比對原理來找尋相似的區段,並且會用特別的標記呈現給譯者使其易於辨認。有一點很重要的是一般的翻譯記憶系統只會從其資料庫里搜尋來源語言。
完全無相似(no match)的文字區段將必須由譯者手動的翻譯。這些新翻譯的文字區段會被存進資料庫里,則未來的翻譯將有可能因為來源文字重複出現而可以馬上被採用。
翻譯記憶庫在文章字詞重複相當高的情況之下將可運作的相當好,例如一些技術文件或是手冊。翻譯記憶庫對於翻譯一個從過去既有文件逐步增修的狀況來說也很有幫助。一般而言,翻譯記憶庫在文學或是創意文件里不會被考慮採用,主要是因為這些類型的文章其重複性相當低。然而,也有人認為這些重複性極低的文字仍就值得加以搜集,例如在用語索引(concordance)的搜尋時便可派上用場。其他搜集翻譯記憶庫的幫助也可在品質驗證和校閱時有所幫助(利用翻譯記憶庫,可以很簡單的將來源語言與目標語言匯出,使其每行一對,並且以 tab 分隔來源與目標,便於確認有無未翻文字,或是使譯者便於校閱)。
當翻譯記憶庫被持續的使用在適當的文字上一段時間之後,其將可為譯者省下不少的工作量。

主要的優勢


翻譯記憶針對技術文件或是具有特定辭彙的文章來說是最合適的。其優勢包含:
確保文件完整的被翻譯(翻譯記憶不接受記憶區段里的目標語言無資料)
確保翻譯文件的一致性,包含通用定義、語法或措詞、以及專用術語。這針對多個譯者同時在翻譯一個專案或文件時相當重要。
使譯者不須自行處理眾多不同檔案格式的檔案,僅需面對翻譯記憶庫軟體提供的界面或是單一的檔案格式便可進行翻譯。
加速整體翻譯的速度,即翻譯記憶庫已“記憶”先前已翻譯過的素材,譯者針對重複的文字僅需翻譯一次。
降低長時間的翻譯專案的開銷;以使用手冊為例,警告信息這類大量重複的文字僅需被翻譯一次,便重複被使用。
針對大型文件的專案而言,即使在首次翻譯時翻譯記憶庫的使用效益並不明顯,但當進行該專案的衍生專案(例如文件的修訂版)時,翻譯記憶庫的使用便可大幅節省翻譯的時間與金錢。

主要的障礙


使用翻譯記憶所面臨主要的困難與缺點包含如下:
“翻譯記憶”的概念是基於:文句過去的翻譯可以被“回收再利用”。然而,翻譯的其中一個原則是,譯者必須翻譯文字所要表達的信息(即意譯),而不是翻譯片段的句子。(常見翻譯記憶的使用皆是以一句作為一個翻譯單元(Translation Unit)或翻譯區間(Translation Segment),使得翻譯具有前後文關係的文件時容易變成是單獨翻譯多個句子后再加以組合)。
翻譯記憶軟體並不是很容易的可以套用至既有的翻譯或是本土化(Localization)的流程之中。為了要使翻譯記憶的使用能夠有更大的效益,翻譯流程必須被重新規劃。
翻譯記憶軟體並不支援所有的文件格式,可用的文件過濾器不見得支援所有的檔案類型。
使用翻譯記憶軟體有其學習曲線必須克服,此外,軟體本身尚須被客制化以發揮最大效益。
若部份的翻譯流程,被外包給不在公司的自由譯員(Freelance Translator),這些譯者必須擁有特定的軟體,可以開啟由翻譯記憶軟體所產生的檔案格式,才能進行翻譯。
具備完整功能的翻譯記憶軟體價格不菲,其可視為一項值得考慮的投資。當然,有些程序開發者也製作免費或相當低價的所謂的譯者版給單一的譯者,使其可以開啟由完整版所建立的檔案以進行翻譯。
要將使用者過去的翻譯導入翻譯記憶庫里,以及相關的教育訓練等所帶來的開銷,也變成一種值得考慮的投資。
維護翻譯記憶庫,在多數的例子里,仍舊需要不少人工的步驟,而不當的維護將導致 TM 相符度的顯著降低,其可用性與品質也相對受到影響。
如同前述,翻譯記憶軟體不見得適用於字詞或文句很少有重複的文件類型,或是在歷次修訂版中不會包含部份更新的狀況。技術文件通常最適合使用翻譯記憶,然而市場行銷或是創意文句並不適合。
翻譯記憶庫里所儲存的記錄並不保證正確;如果某一特定區段的翻譯並不正確,則這不正確的翻譯將會在下一次相同或近似的來源文字里再次被回收使用,這導致問題將會持續存在。

TMM的功能


以下說明翻譯記憶的主要功能

離線功能

• 導入
• 這功能是用來將外部的文字與翻譯從文字檔傳輸到翻譯記憶庫里。導入功能的來源檔案可以是原生檔案,也可以是其他業界標準的翻譯記憶檔案。有時有些翻譯記憶庫是以其他形式儲存,則必須透過一些格式轉換才能進行導入。
• 分析
• 分析的過程可以再細分為下面幾項:
• 1.文句分析(Textual parsing)
• 辨識文句的標點符號相當重要,例如必須要能正確的辨認文句結尾的句點與縮寫的句點,正確的判定文句結尾的位置。其他應視為文句段落的標點符號或是標記也必須盡量的被辨識出來,例如在多數的狀況之下問號、驚嘆號等也是文句結尾的判定之一,很多狀況之下像是冒號、換行符號等也會被作為文句段落的辨識標記。在譯者正式開始翻譯之前通常都要先對文句進行標記,該動作是將不須被翻譯的符號或是段落給予特定標記,將必須被翻譯的文句給予另一種標記。
• 2.句法分析(Linguistic parsing)
• 句法分析旨在減少文句中基本形態字詞的數量,做法是從文章中萃取出專用術語、片語等。
• 3.區段化(Segmentation)
• 其目的是找出最有用的翻譯單元(Translation Unit)。區段化有點類似文句分析,他是在單一語言下進行,並使用可定義的規則來進行表面的分析,例如可定義哪些特定類型的符號或是標記應被納入翻譯單元里,哪些符號應被視為結束一個翻譯單元的點。舉例來說,一個冒號的前後文可以視為一個完整的段落(翻譯單元),但在一些狀況下冒號前後也會被拆解為兩個翻譯單元。假設譯者手動改變了翻譯單元,例如合併了某兩個翻譯單元為一個,或是將一個翻譯單元拆解為兩個或多個,則下一次的文件版本更新將會喪失這個翻譯單元的相符性,因為下一版本仍就會以既定的規則來對文件進行區段化。
• 4.平行對齊(Alignment)
• 這是將來源語言與目標語言文字平行對應對齊的工作。區段化的標準將會影響平行對齊的效果,通常也得仰賴好的平行對齊演演算法來校正區段化的錯誤。
• 5.專用術語抽出
• 前一版本的詞語辭典可被拿來使用,或是再行針對既有的文件抽取未知的術語。通常可以藉由文字分析的統計來抽出這些詞語,例如從文字的重複性來加以分析。

線上功能

• 更新
• 自動翻譯
• 共同作業
• 文字記憶
• “文字記憶”(Text Memory)是基於LISA OSCAR xml:tm 標準而定義的。文件記憶包含了作者(譯者)的記憶與翻譯記憶。
• 作者(譯者)記憶
• 在創作(翻譯)的過程中,每一個文字單元都會被賦予一個唯一的辨識碼。文字單元是構成文句的一個子集。
• 翻譯記憶
• 在翻譯過程中,唯一個辨識碼會被記憶下來,如此則目標語言的文件皆會被一一的對應到每一個文字單元的層級。如果來源文件隨後被更改而異動,則文件里沒有異動的文字單元將可直接的被轉一到新的目標語言版本而不須譯者而額外的檢閱、翻譯等互動。這是翻譯記憶里的“精確”(exact)或是“完美”(perfect)相符的概念。

翻譯記憶庫種類


• TMX
• Translation Memory Exchange format(翻譯記憶交換格式),TMX標準實現不同翻譯軟體供應商之間翻譯記憶庫的互換,為翻譯社群所採納的匯入匯出翻譯記憶的最佳辦法。
• TBX
• Termbase Exchange format(Termbase交換格式),該標準允許含有詳細辭彙資訊的術語資料作互換。術語庫交換標準的 TBX 是“ Term-Base eXchange ”的縮寫。 TBX 基於 ISO 術語數據表示的 XML 標準,由 LISA 的 OSCAR 制定和維護。一個 TBX 文件就是一個 XML 格式的文件。採用 TBX ,用戶可以很方便的在不同格式的術語庫之間交換術語庫數據。這極大地促進了公司內部與外部在術語管理的整個周期內的數據處理。普通用戶也可以很方便的訪問大型公司公開在網上發布的術語庫內容。
• SRX
• RX 標準解決了不同本地化語言工具處理“斷句”規則不統一,從而導出的翻譯記憶交換( TMX )文件的不方便處理的問題。 SRX 是“ S egmentation R ule e X change ”的縮寫,是基於 XML 的標準, SRX 1.0 在 2004 年 4 月成為 LISA OSCAR 的官方標準。遵守 SRX 標準,不同工具、不同本地化公司創建的翻譯記憶( TM )文件可以很方便的交換翻譯記憶庫和翻譯記憶交換文件。
• GMX
• GMX 是“ Global Information Management Metrics eXchange ”的縮寫,它是一個家族標準,包括“工作量( Volume )”,“複雜度( Complexity )”和“質量( Quality )”三個子標準,即 GMX-V , GMX-C 和 GMX-Q 。
• OLIF
• 開放詞典交換格式。1990年作為一個數據詞典交換選項(尤其是MT)和術語資料庫發布,OLIF已經演變成為一個標準。
• XLIFF
• XML Localisation Interchange File Format(XML本地化交換檔案格式)。其目的是提供所有當地語系化提供者都能了解的單一檔案交換格式。XLIFF是業界使用XML格式來交換資料時的慣用方式。
• TransWS
• Translation Web Services(翻譯線上服務).
• xml:tm

翻譯記憶軟體


自由開放源代碼軟體

• OmegaT
• 跨平台的電腦輔助翻譯工具。沒有語言限制(來源和目標)。直接支持MS Office 2007格式、OpenOffice.org格式、OpenDocument Format(ODF)、DocBook XML、(X)HTML、HTML Help Compiler files(HTML幫助編譯文件)、純文字文件、java .properties、PO。授權形式:GPL。需求環境:Java JRE。
• Open Language Tools
• 跨平台的電腦輔助翻譯工具,沒有語言限制(來源和目標)。以自有格式(compressed XLIFF 1.0)運作,提供多種格式相互轉換:HTML、DocBook SGML、JSP、XML(需要設定檔)、OpenOffice.org 格式、Open Document Format、純文字、PO、java .properties、Java RessourceBundle、Mozilla .DTD 資源檔、授權形式:CDDL。需求環境:Java JRE
• Transolution
• 跨平台的電腦輔助翻譯工具。沒有語言限制(來源和目標)。支援XLIFF檔案,授權形式:GPL。需求環境:Python。

專屬但是免費的軟體

• Appletrans
• Mac OSX平台的翻譯工具,無語言限制(源語言和目的語言)支持RTF, HTML, XML。
• MemoQ 4Free
• Windows平台的翻譯工具。不支持亞洲語系(包括中日韓語種)支持MS Office格式(.doc, .xls, .ppt, .rtf), HTML, 無格式文本, TTX, Framemaker .mif 格式. ,需要.NET 2.0支持。
• Wordfast Anywhere
• 是Wordfast的雲端版本的翻譯記憶的軟體。支持多種格式文件(包括PDF),可以免費註冊使用。

專屬且要付費的軟體

• across:自由譯員可以免費使用
• AidTrans Studio Professional:提供免費的beta版本下載,大約2000年以後已經無更新版本。
• Araya Translation Editor
• Déjà Vu:提供試用版
• Heartsome Translation Suite:提供全功能試用版和有限功能的免費版
• Linear B Searchable
• Lingobit Localization Tool:具有翻譯記憶的軟體當地語系化工具
• MetaTexis:提供試用版(Evaluation version) - 需要安裝在Microsoft Word上
• MLTS:支持翻譯阿拉伯語。
• MemoQ Translator Pro:提供免費的自由譯者版本(freelancer's version)
• SIMILIS (2nd Generation Translation Memory):支持多種操作系統(Cross-platform)及XLIFF 1.2標準
• Logoport™:Lionbridge公司的線上多人協同作業CAT工具
• MultiCorpora MultiTrans
• Sisulizer Localization Tool:具有翻譯記憶功能的軟體當地語系化工具
• STAR Transit:提供免費的自由譯者版本(freelancer's version),稱為SDLX Edit Lite
• TRADOS
• TransAssist
• Translatum
• T-Remote Memory
• Wordfast:具有功能限制的共享軟體(shareware)版本,只有在翻譯記憶中儲存超過500個翻譯單位(translation unit)時才需要註冊
• XTM:基於翻譯記憶的完全開放的軟體,記憶庫格式為:xml:tm,支持所以基於XML的SRX, Unicode Standard Annex #29-9, XLIFF 1.2, GMX-V, TMX, DITA and W3C ITS。
• 雪人CAT:國產的一款CAT軟體,有個人版和標準版,個人版免費,但僅支持TXT格式,如果不排版,對於個人用戶還是足夠使用。如果需要更多格式支持以及排版等需求,只能使用標準版。