翻譯記憶

是電腦程序軟體的資料庫

翻譯記憶(亦稱翻譯內存、翻譯記憶庫,translation memory,縮寫為TM)是電腦程序軟體的資料庫,用來輔助人工翻譯。有些使用翻譯記憶庫的軟體也常被稱為TMM (Translation Memory Managers)。

原理定義


翻譯記憶(TM)的原理其實非常簡單。由於專業翻譯領域所涉及的翻譯資料數量巨大,而範圍相對狹窄,集中於某個或某幾個專業,如政治、經濟、軍事、航天、計算機、通訊等專業都有自己的專業翻譯公司或部門。這就必然帶來翻譯資料的不同程度的重複。據統計,在不同行業和部門,這種資料的重複率達到20%~70%不等。這就意味著譯者至少有20%以上的工作是無謂的重複勞動。翻譯記憶技術就是從這裡著手,首先致力於消除譯者的重複勞動,從而提高工作效率。
翻譯記憶(TM)技術原理是這樣的:用戶利用已有的原文和譯文,建立起一個或多個翻譯記憶庫(Translation Memory),在翻譯過程中,系統將自動搜索翻譯記憶庫中相同或相似的翻譯資源(如句子、段落),給出參考譯文,使用戶避免無謂的重複勞動,只需專註於新內容的翻譯。翻譯記憶庫同時在後台不斷學習和自動儲存新的譯文,變得越來越"聰明",效率越來越高。幾乎所有翻譯記憶廠家都會告訴用戶:有了TM,你永遠不必對同一句話翻譯兩遍!
機器翻譯界一位著名專家曾經說過,機器翻譯做了人願意做的工作,卻沒有做好;翻譯記憶則做了人不願做的工作!可不是嗎,有誰願意把時間花在重複勞動上,又有誰樂意讓一台技術不成熟機器來代替自己的工作呢?翻譯記憶技術,實際起了輔助翻譯的作用,也就是"計算機輔助翻譯",簡稱CAT(Computer Aided Translation)。
翻譯記憶庫多見於電腦輔助翻譯工具、文字編輯程序、專用術語管理系統(Terminology Management Systems)、多語辭典、甚至是純機器翻譯的輸出之中。
一個翻譯記憶單元包含了來源語言的文字區段以及其翻譯。這些區段可以是文字區塊、章節、一句或是數句文句、或是詞語。個別的字詞被視為專用術語來處理,一般而言不在翻譯記憶的領域之中(即使翻譯記憶庫依舊可以包含單一字詞為其翻譯記憶單元)。研究顯示市場上已有很多公司所建立的多語言文件使用了翻譯記憶庫的技術來輔助。

翻譯記憶庫


譯者首先提供一段來源文字(亦即要拿來被翻譯的文字)給翻譯記憶庫,程式會先分析這段文字,試著在資料庫里找尋既有的翻譯區段是否與過去曾經翻譯過的文字相符。如果找到相符的舊有翻譯(legacy translation pairs),則會呈現出來給譯者檢閱。譯者可以選擇接受舊有的翻譯、拒絕、或是加以修改。若加以修改,則修改的版本也會被記錄並存進資料庫里。
某些翻譯記憶庫系統只會搜尋 100% 相符的文字,也就是說這隻會將新的來源文字與資料庫內做精確的比對,只有完全相符的資料才會被提出。也有其他的系統會使用模糊比對原理來找尋相似的區段,並且會用特別的標記呈現給譯者使其易於辨認。有一點很重要的是一般的翻譯記憶系統只會從其資料庫里搜尋來源語言。
完全無相似(no match)的文字區段將必須由譯者手動的翻譯。這些新翻譯的文字區段會被存進資料庫里,則未來的翻譯將有可能因為來源文字重複出現而可以馬上被採用。
翻譯記憶庫在文章字詞重複相當高的情況之下將可運作的相當好,例如一些技術文件或是手冊。翻譯記憶庫對於翻譯一個從過去既有文件逐步增修的狀況來說也很有幫助。一般而言,翻譯記憶庫在文學或是創意文件里不會被考慮採用,主要是因為這些類型的文章其重複性相當低。然而,也有人認為這些重複性極低的文字仍就值得加以蒐集,例如在用語索引(concordance)的搜尋時便可派上用場。其他蒐集翻譯記憶庫的幫助也可在品質驗證和校閱時有所幫助(利用翻譯記憶庫,可以很簡單的將來源語言與目標語言匯出,使其每行一對,並且以 tab 分隔來源與目標,便於確認有無未翻文字,或是使譯者便於校閱)。
當翻譯記憶庫被持續的使用在適當的文字上一段時間之後,其將可為譯者省下不少的工作量。

主要優勢


翻譯記憶針對技術文件或是具有特定辭彙的文章來說是最合適的。其優勢包含:
1、確保文件完整的被翻譯(翻譯記憶不接受記憶區段里的目標語言無資料)
2、確保翻譯文件的一致性,包含通用定義、語法或措詞、以及專用術語。這針對多個譯者同時在翻譯一個專案或文件時相當重要。
3、使譯者不須自行處理眾多不同檔案格式的檔案,僅需面對翻譯記憶庫軟體提供的界面或是單一的檔案格式便可進行翻譯。 4、加速整體翻譯的速度,即翻譯記憶庫已“記憶”先前已翻譯過的素材,譯者針對重複的文字僅需翻譯一次。
5、降低長時間的翻譯專案的開銷;以使用手冊為例,警告訊息這類大量重複的文字僅需被翻譯一次,便重複被使用。
6、針對大型文件的專案而言,即使在首次翻譯時翻譯記憶庫的使用效益並不明顯,但當進行該專案的衍生專案(例如文件的修訂版)時,翻譯記憶庫的使用便可大幅節省翻譯的時間與金錢。

主要障礙


使用翻譯記憶所面臨主要的困難與缺點包含如下:
“翻譯記憶”的概念是基於:文句過去的翻譯可以被“回收再利用”。然而,翻譯的其中一個原則是,譯者必須翻譯文字所要表達的信息(即意譯),而不是翻譯片段的句子。(常見翻譯記憶的使用皆是以一句作為一個翻譯單元(Translation Unit)或翻譯區間(Translation Segment),使得翻譯具有前後文關係的文件時容易變成是單獨翻譯多個句子后再加以組合)。
翻譯記憶軟體並不是很容易的可以套用至既有的翻譯或是本土化(Localization)的流程之中。為了要使翻譯記憶的使用能夠有更大的效益,翻譯流程必須被重新規劃。
翻譯記憶軟體並不支援所有的文件格式,可用的文件過濾器不見得支援所有的檔案類型。
使用翻譯記憶軟體有其學習曲線必須克服,此外,軟體本身尚須被客制化以發揮最大效益。
若部份的翻譯流程,被外包給不在公司的自由譯員(Freelance Translator),這些譯者必須擁有特定的軟體,可以開啟由翻譯記憶軟體所產生的檔案格式,才能進行翻譯。
具備完整功能的翻譯記憶軟體價格不菲,其可視為一項值得考慮的投資。當然,有些程序開發者也製作免費或相當低價的所謂的譯者版給單一的譯者,使其可以開啟由完整版所建立的檔案以進行翻譯。
要將使用者過去的翻譯導入翻譯記憶庫里,以及相關的教育訓練等所帶來的開銷,也變成一種值得考慮的投資。
維護翻譯記憶庫,在多數的例子里,仍舊需要不少人工的步驟,而不當的維護將導致 TM 相符度的顯著降低,其可用性與品質也相對受到影響。
如同前述,翻譯記憶軟體不見得適用於字詞或文句很少有重複的文件類型,或是在歷次修訂版中不會包含部份更新的狀況。技術文件通常最適合使用翻譯記憶,然而市場行銷或是創意文句並不適合。
翻譯記憶庫里所儲存的記錄並不保證正確;如果某一特定區段的翻譯並不正確,則這不正確的翻譯將會在下一次相同或近似的來源文字里再次被回收使用,這導致問題將會持續存在。

TMM功能編輯


以下說明翻譯記憶的主要功能

離線功能

•導入
•這功能是用來將外部的文字與翻譯從文字檔傳輸到翻譯記憶庫里。導入功能的來源檔案可以是原生檔案,也可以是其他業界標準的翻譯記憶檔案。有時有些翻譯記憶庫是以其他形式儲存,則必須透過一些格式轉換才能進行導入。
•分析
•分析的過程可以再細分為下面幾項:
•1.文句分析(Textual parsing)
•辨識文句的標點符號相當重要,例如必須要能正確的辨認文句結尾的句點與縮寫的句點,正確的判定文句結尾的位置。其他應視為文句段落的標點符號或是標記也必須盡量的被辨識出來,例如在多數的狀況之下問號、驚嘆號等也是文句結尾的判定之一,很多狀況之下像是冒號、換行符號等也會被作為文句段落的辨識標記。在譯者正式開始翻譯之前通常都要先對文句進行標記,該動作是將不須被翻譯的符號或是段落給予特定標記,將必須被翻譯的文句給予另一種標記。
•2.句法分析(Linguistic parsing)
•句法分析旨在減少文句中基本形態字詞的數量,做法是從文章中萃取出專用術語、片語等。
•3.區段化(Segmentation)
•其目的是找出最有用的翻譯單元(Translation Unit)。區段化有點類似文句分析,他是在單一語言下進行,並使用可定義的規則來進行表面的分析,例如可定義哪些特定類型的符號或是標記應被納入翻譯單元里,哪些符號應被視為結束一個翻譯單元的點。舉例來說,一個冒號的前後文可以視為一個完整的段落(翻譯單元),但在一些狀況下冒號前後也會被拆解為兩個翻譯單元。假設譯者手動改變了翻譯單元,例如合併了某兩個翻譯單元為一個,或是將一個翻譯單元拆解為兩個或多個,則下一次的文件版本更新將會喪失這個翻譯單元的相符性,因為下一版本仍就會以既定的規則來對文件進行區段化。
•4.平行對齊(Alignment)
•這是將來源語言與目標語言文字平行對應對齊的工作。區段化的標準將會影響平行對齊的效果,通常也得仰賴好的平行對齊演演算法來校正區段化的錯誤。
•5.專用術語抽出
•前一版本的詞語辭典可被拿來使用,或是再行針對既有的文件抽取未知的術語。通常可以藉由文字分析的統計來抽出這些詞語,例如從文字的重複性來加以分析。

線上功能

•更新
•自動翻譯
•共同作業
•文字記憶
•“文字記憶”(Text Memory)是基於LISA OSCAR xml:tm 標準而定義的。文件記憶包含了作者(譯者)的記憶與翻譯記憶。
•作者(譯者)記憶
•在創作(翻譯)的過程中,每一個文字單元都會被賦予一個唯一的辨識碼。文字單元是構成文句的一個子集。
•翻譯記憶
•在翻譯過程中,唯一個辨識碼會被記憶下來,如此則目標語言的文件皆會被一一的對應到每一個文字單元的層級。如果來源文件隨後被更改而異動,則文件里沒有異動的文字單元將可直接的被轉一到新的目標語言版本而不須譯者而額外的檢閱、翻譯等互動。這是翻譯記憶里的“精確”(exact)或是“完美”(perfect)相符的概念。

輔助翻譯軟體


SDL Trados是世界上最流行的計算機輔助翻譯(CAT) 軟體,在全球擁有13萬多客戶,全球500強企業有超過90%的公司都在使用SDL Trados來為日常的本地化翻譯工作服務,SDL Trados為他們克服了在不同國家地區的文化、語言障礙,從而為他們的全球化鋪平了發展道路。因為SDL Trados用戶通常能夠將完成工作的速度提高50%左右(具體數值依不同文檔,項目會有變化),更準確地評估時間和成本,顯著減少翻譯錯誤,編寫更為一致的翻譯(對技術、法律和醫學翻譯來說,這一點尤其重要)。
SDL Trados Translation Memory(以下簡稱TM)能夠建立以前翻譯內容的語言資料庫,並確定可重複使用的內容。在使用本軟體工作時,它將自動提出建議的可重複使用內容,因此相同的句子無需再次進行翻譯。無需進行新的翻譯(從字面上,“SDL Trados 加快了新產品的全球發布”),SDL Trados 能夠應用人工智慧,提出建議的最匹配翻譯,以便重複使用。即使不存在完全匹配,SDL Trados 也能使翻譯人員再次避免不必要的重複工作。
SDL Trados TM 可以使某位翻譯人員處理新內容,其他翻譯人員處理不完全匹配的新文本。SDL Trados TM Server可以共享在線翻譯記憶庫並利用其他翻譯人員的工作成果。同時可以利用熟知的Microsoft Word 界面和工具與數以千計裝備有SDL Trados 的翻譯人員、翻譯公司和企業一同工作。
您使用SDL Trados的時間越長,您的庫存儲內容就越多,因此效率就會越高。一段時間之後,SDL Trados TM將穩定減少新進工作中一定量的抓取需要翻譯的內容。這將顯著提高翻譯速度和準確性。
SDL Trados TM 可在網路的內部和外部環境協同使用。所以在世界的每一個客戶用戶都可以藉助全部的術語庫進行工作。翻譯可以在線的獲取所有的翻譯資源,無論SDL Trados用戶是通過網際網路還是實時分享中央術語庫的資源。

輔助翻譯系統


Transmate輔助翻譯軟體系統,包括Transmate輔助翻譯軟體單機板、Transmate輔助翻譯軟體網路板、Transmate輔助翻譯項目管理軟體以及Transmate輔助翻譯軟體教學實驗室。Transmate可供各地語言專家組成的翻譯團隊同時進行一個稿件或一個項目下的多個稿件實施翻譯、校對工作。
Tranamate系統採用先進的翻譯記憶技術,自動記憶用戶的翻譯結果,相同的句子、片段只需翻譯一次。翻譯過程中,系統通過獨創的搜索引擎技術,瞬間查找記憶庫,對需要翻譯的內容進行快速分析、對比,對於相同的句子無需翻譯第二遍。歷史素材的重複利用,不但提高了翻譯效率,而且達到了翻譯結果的準確和統一,同時還降低了成本、節省時間。相似的句子、片段系統自動給出翻譯建議和參考譯例,用戶只需稍加修改即可完成翻譯過程,甚至可選擇自動匹配替換,直接得到翻譯結果,避免重複性勞動,提高工作效率。
用戶所翻譯過的所有文字(包括原文和譯文)均會保存到記憶庫之中,當翻譯工作繼續進行的時候,Transmate將會自動地根據模糊匹配的原理將記憶庫中的資料與當前的翻譯工作內容相比較,自動提示最佳翻譯匹配,並保證翻譯中的一致性。