華文世界第一本控制性漢語書寫指南,開啟中文網路e語言的新時代!
【白象文化學術輕鬆讀】系列作品.國立高雄第一科技大學產學合作專案
無國界漢語書寫分析與實用指南
如何把一句話寫得讓線上機器翻譯也看得懂?
別怪Google Translate老是將網頁文字翻譯得四不像,其實是你沒搞懂「對機器彈琴」的正確方法啦!
透過研究與驗證,歸納出「控制性漢語」普遍性的書寫原則,應用在中文網頁文字上,與自然漢語網頁並行,充分強化並補足機譯翻譯的正確性,除為網路世紀的翻譯學習者、網頁書寫者及翻譯教師們提供一種「機器輔助網頁翻譯」、「及時跨界交流與溝通」之新思維及新方向,讓區域性的資訊與文化更能藉由網路無國界的特性,傳達到全世界。
網路語言僅是一種載體及工具,跨界溝通才是目的。
若是能以淺白、簡單、註記清楚的控制性漢語來幫助線上機譯更正確──
就不必寫得太文言,也不必弄得太複雜。
Language on the web is only a vehicle.
Communication across borders is the main goal.
Since plain, simple and clearly-marked controlled language allows the online machine to create more understandable translations,
the web writing style does not have to be classical and complicated.
【本書特色】
◎為漢語社群推介網頁書寫新文體,教你節省各國語言翻譯成本,方便即時,老外不再看攏無!
◎為初學者提供完整的書寫規則及實例,主題涵蓋多元化,表列清楚,可快速應用。
◎適用文化傳播、資訊交流、公司廣告等網頁文字工作者、語文教學者。
◎以「阿瘦皮鞋」、「中國石油公司」、「華碩電腦」、「圓山大飯店」等公司網頁為例,逐步學習控制性語言書寫與線上機器翻譯要領。
更多精彩內容請見
http://www.pressstore.com.tw/freereading/9789865780302.pdf
作者簡介:
史宗玲(Chung-ling Shih)
國立台灣師範大學英美文學博士,曾任清雲技術學院應用英語系系主任、高雄第一科技大學通識中心主任,現任高雄第一科大外語學院翻譯、文化與科際整合研究中心主任。其研究興趣廣泛,涉及多重領域,包括MT、TM、CAT、文化研究、翻譯教學與理論、英美文學等等。發表中、英文期刊論文達四十餘篇,受邀至大陸及台灣大專院校演講多場次,亦至國外研討會發表論文數次。目前她從事MT/TM及翻譯教學,大力倡導控制性漢語網頁書寫,希望藉由此著作促使更多華人關注網頁書寫新文體,俾「機器輔助網路翻譯」之有效溝通理想能早日實現。
相關著作:
Translation research models and application: Intra/extra-linguistic perspectives. Taipei: Bookman Books, Ltd., (2012).
Helpful assistance to translators: MT & TM. Taipei: Bookman Books, Ltd., (2006).
《機器翻譯即時通:臺灣籤詩嘛ㄟ通》台北:書林出版公司(2011)。
《電腦輔助翻譯: MT & TM》台北:書林出版公司(2004)。
章節試閱
〈主編導讀〉
單一語言網頁文字,由機器轉譯成多國語言的時代來臨了!
智慧型手機的虛擬秘書,聽得懂不同國家的口語化指令,和使用者對話時,可直接完成多項工作的執行。
在無國界的網路世界,透過「機器翻譯」(Machine Translation, MT),一份網頁文本可以直接轉譯成不同語言,且語意正確度可在60%~90%,甚至有機會趨近100%,大量節省了網頁內容製造的翻譯時間與成本,也加速網路內容的跨語言傳播。
●如何寫,機器才看得懂?
舉例而言:線上機譯系統Google Translate已可支援七十二種語言的翻譯,其便捷、多語的功能,造福全球不少網頁讀者,然而,翻譯品質受限於系統本身語庫容量,以及各國語言的文法與文本內容性質的限制,常有譯文讓使用者不知所以,造成資訊未能充分傳達,甚至誤解的狀況。
其實,同一句話,換一種方式寫,意思不變,卻能讓讓網路線上翻譯機比較容易正確地以多國語言譯出語意。
這種為了讓網頁文字經「機譯」後可呈現最佳品質所刻意書寫的文字,稱為「控制性語言」(controlled language)。相對於「自然語言」,「控制性語言」可稱為為機器翻譯量身訂作的「人工語言」,使用漢語書寫即為「控制性漢語」;若使用英語書寫即為「控制性英語」。
●控制性語言的由來
最早為了方便民眾閱讀商業文件,以及讓大量外來移民看懂、填寫政府官方文件,英美國家提倡簡易英語(plain English)。
之後,這項簡易英語被廣泛應用於翻譯產業,並演變成了「控制性英語」(controlled English/CE),方便機器翻譯系統將來源文本譯成多國語言。許多著名的公司如:美國司馬特通訊國際有限公司(Smart Communications, Inc.)、卡特匹勒有限公司(Caterpillar Company/重機械製造商)、美國波音航空公司等,還會應用機器翻譯系統來檢測產品說明書、使用者手冊等文件是否符合控制性英語的規範,自動提供字詞作為參考,以符合CE的書寫標準。
●不同網頁書寫文本應平行使用
善用網路科技將資訊傳播至國際,更需要考量多國語言轉換的溝通與應用的便利性,人工翻譯品質受限經費、時間成本,以及翻譯者個人的能力,自然不如機器翻譯的便利與低成本,而為了提高機器翻譯的效益,量身打造「控制性漢語」,讓其廣泛應用在資訊傳達的網頁文字上是必要的。
控制性網頁係針對西方讀者而設計,亦是為了方便透過Google Translate將其譯成多國語言,經過多次嘗試、實驗、驗證後將控制性漢語歸納出普遍的書寫原則,只要符合這些原則的應用方式,可以更貼近機譯的百分百翻譯效果。換言之,只要來源語文本符合機譯系統運作邏輯,則機譯譯文品質大為提升。
因此本書主張,網頁應平行使用一般自然漢語文本與控制性漢語文本模式,以顧及不同讀者群的需求;自然漢語書寫網頁文本專為國人/地方語言使用者服務,而控制性漢語書寫文本則為外籍人士使用,國際文化、資訊、經濟等交流,將更為便捷暢通。
●閱讀重點
1.自然漢語、機器翻譯、控制性漢語的語言因果關係與推演機制。
2.控制性漢語的書寫原則與應用方法。
3.節慶與民俗網頁文本範例,達到書寫通則、跨文化、跨國界交流示範引導。
4.逐步分析介紹公司網頁如何以控制性漢語書寫:範例「阿瘦皮鞋」、「中國石油公司」、「華碩電腦」、「圓山大飯店」等。
●那些人需要學習與應用「控制性語言」?
1.為傳播文化、資訊交流、商業廣告給國際人士的【網站建置者】。
2.製作網頁的【網頁文字工作者】。
3.提供跨國界、跨文化知識,以供外籍讀者搜尋與閱讀的【資訊供應者】。
4.【翻譯人員】,瞭解機器翻譯趨勢與需求。
5.【語文教師】,教導網路通行的另一種語言書寫原則。
●趨勢探索
.機器翻譯、控制語言將成為網路上跨語言、跨國界傳播主要應用工具。
白象文化事業有限公司
徐錦淳、水邊
〈第一章 網頁翻譯與科技應用〉
壹、前言
自電腦科技重大突破發展後,興起了一波的網際網路革命,愈來愈多人離不開電腦及網路,網路世界儼然成為一本百科全書,上至天文下至地理,凡是人類所欲查詢的知識或生活周遭所發生的大、小事件及訊息,全都披露公佈在網路上。教育單位、公民營機構及公司行號為了傳遞其組織設立宗旨、經營理念、行銷策略或運作方式等,無不紛紛設立網站,藉由網頁行銷方式以遂其目的,內容涵蓋各種服務資訊、產品內容及相關聯結網站等。各行各業人士,無論何種層級、族群、性別、膚色、年齡,皆可跳脫時空限制上網查詢所需資料。網站及網頁之所以吸引人乃是因為其內容設計遠較平面媒體印刷更具彈性、方便及自由,設計者可任意增添圖片,亦可隨時更新內容,甚而附加聲效,以多媒體方式呈現,更有便於讀者閱讀與了解。
但值得注意的是,資訊傳輸工具無論多麼進步、多元,我們仍需回歸到其根本載體--“語言”之議題。網路資訊溝通雖可藉由圖片、聲效等載體來“增加”其附加價值及溝通傳輸效果,但語言仍是傳輸資料的最主要媒介。提及語言載體,全世界共有六千種語言(Kruss 1992),為滿足全球化需求,愈來愈多網站與網頁不得不以國際通用語言─英語呈現,故現今網頁通常以翻譯的雙語方式呈現:一為地方語言(來源語/source language),另一為國際通用之英語譯文(目標語/target language),翻譯儼然成了跨界、跨語言溝通之最佳解決方式。不過大家仍希望網頁內容可提供即時翻譯服務,如此一來,使用者可選擇其理解的語言去翻譯內容,如此當可增加網頁資訊傳輸的效益並擴大其服務範圍。
許多翻譯公司早已查覺網站即時翻譯的便利性、重要性及迫切性,所以紛紛提供線上免費翻譯服務,此即是所謂的機器翻譯(MT)。目前國內提供線上即時翻譯服務之機器翻譯工具包括:譯言堂(http://www.mytrans.com.tw/tchmytrans/)、Google Translate,大陸則有百度(http://fanyi.baidu.com/)、查查在線詞典(http://www.ichacha.net/fanyi.aspx)等。經過測試,中譯英品質仍以Google Translate最佳。例如:當我們將此句中文「人們相信假如結婚婦女吃豬肚,她們會容易地變成懷孕。該原因是一隻母豬能生出許多小豬」輸入Google Translate,其英語機譯為People believe that if married women eat tripe, they could easily become pregnant. The reason is that a sow can give birth to a lot of pigs. 然而當我們使用百度翻譯時,其譯文是People believe that if married women to eat tripe, they can easily become pregnant. The reason is a sow can produce many pigs,此譯文中含有文法錯誤,主詞與動詞之間出現不定詞(to);此外,語用錯誤是「生許多豬」直接譯成 “produce many pigs”。相較之下,Google Translate的英譯 “give birth to a lot of pigs” 品質較好。Google Translate亦於2005年在美國國家標準與科技局(National Institute of Standards and Technology)所舉辦的機器翻譯比賽中,獲得最高分。根據Kanellos(2005)的看法,其勝出的優勢可能是來自於該公司透過本身的強力搜尋引擎,網羅了龐大的翻譯資料來源,故Google Translate仍是目前最理想之中英機譯工具。
貳、機器翻譯與控制性語言
不同於Google Translate,傳統的MT系統,如:Dr. Eye或一般電子字典等,係採規則法之翻譯系統,先輸入千萬條文法規則或字典,經分析、轉介、替換程序後產出譯文,其譯句呆板、機械化,讀起來繞口不順暢,有些字詞翻譯也不符合原意。Google Translate系統則有別於傳統的規則法機譯系統,主要是運用語料庫及統計學方法;其譯文之產出主要是仰賴其多語的平行語料庫,語料庫內容愈多元、豐富、儲量愈大,則完全比對句數頻率會比模糊比對句數頻率為高,譯文準確度及可理解度相對地也高。但就本人經驗,不論採行何種MT系統,只要輸入文本之句型簡單、詞意清楚,且未含有特殊的地方性詞彙,譯文品質均會有一定之水平。行文至此,吾等當可理解,翻譯科技雖可幫助我們解決線上語言溝通之障礙,但其功能仍有所侷限,故使用者端仍須採行一些配合措施,方能產出更大效益。就如同生病時,除了服用藥物外,仍需仰賴休息、改變生活作息或飲食習慣等,方能早日康復。
網路科技改變了我們資訊傳播及查詢資料的方式,相對的,翻譯科技亦要求我們必須調整現行語言表達方式或書寫格式來因應。雖然機器翻譯系統會不斷改進技術、不斷擴充其語料庫內容,但無論如何,絕對不會改變其一項處理原則,即:愈簡單的來源文本,愈容易處理,其譯文品質愈好。所以,我們只需控制來源文本,將複雜的自然語言文本,改成簡單字彙、簡單句型、一般用語、精簡內容,則任何機譯系統勢必較容易將其譯成他國語言。此種為機譯量身訂製的控制性語言(controlled language)即是人工語言(artificial languge)或次語言(sublanguage),它不同於一般語言,它嚴禁使用多變化及複雜句型、冗長句子、不完整句構、稀有詞彙、地方文化用語、個人創造之用語及句法等,它簡易清晰之書寫方式,特別適合線上Google Translate系統譯成多語內容。由此可知,唯有改寫來源文本再配合科技工具之應用,雙管齊下,方能儘速解決眼前跨界/跨語言溝通之瓶頸與障礙。
英美國家早已提倡簡易英語(plain English),用以控制文本書寫。使用這種英語變體,以單一字詞代替片語及使用淺白易懂詞彙,原本是為了方便民眾閱讀商業文件和方便大量外來移民看懂、填寫政府官方文件。後來,此簡易英語進而被廣泛應用於翻譯產業,並衍變成了控制性英語(controlled English/CE),方便機器翻譯系統將來源文本譯成多國語言;其產出之譯文品質佳,可節省後機譯編輯的成本與時間。基本上,控制性英語編輯會隨著來源文本種類及領域之不同而有所修正,但大致上皆要求如下:1)避免使用一詞多義之詞彙;2)避免使用分詞、片語及代名詞;3)避免使用俚語或方言;4)避免使用關代子句及語意不完整的句子;5)盡量使用短句(Shih, 2006)。許多公司如:美國司馬特通訊國際有限公司(Smart Communications, Inc.)使用SMART MAXit檢測系統,卡特匹勒有限公司(Caterpillar Company/重機械製造商)則使用Caterpillar Technical English,而美國波音航空公司使用Boeing Technical English和Boeing SE Checker來檢查產品說明書、使用者手冊等文件是否符合控制性英語的規範,若未符合,則會建議改寫,自動提供一些字詞作為參考(Torrejon & Rico, 2002; Shih, 2006)。
藉由控制性英語(CE)書寫或前機譯編輯的確會改善機譯文本的可理解性,但隨著譯入語不同,其可讀性、正確性亦會有所差別。Roturier(2004)曾評量2組例句之機譯品質;每組各有177例句,一組使用CE書寫,另一組則以自然語言書寫,比較兩組機器翻譯之品質,他發現使用CE機譯品質到達優質的數量是未使用CE的兩倍;另目標語為法語之翻譯,使用CE之機譯,優質的有140句,未使用CE則只有47句;德語翻譯使用CE之機譯,優質的有78句,未使用CE僅有38句;但日語機譯品質的差異幅度則較小,未使用CE之機譯,有21句達到優異品質,而使用CE則只略微上升至43句。此外,筆者專書《機器翻譯即時通,台灣籤詩嘛ㄟ通》(2011)中亦提及,她將編輯後之260首控制性漢語籤詩送入MT系統,發現英語機譯之語意清晰度、文法正確性可達90%以上;而法語次之,為85%,西班牙語則為80%,德語則較不理想,正確性爲65-70%。由此可知,目標語對使用控制性語言機譯品質會有一定程度之影響。當譯出語與譯入語法差異較大或目標語語料庫較小時,則機譯品質較不理想。
參、多重書寫網頁文本
筆者早已在翻譯課堂、校外演講及國科會計畫中針對「以控制性語言來書寫網頁文本」議題有所著墨,實作成果亦公佈於筆者所任教大學的教學網站。筆者雖提倡控制性網頁書寫,但亦不忘保留來源語原先之詞彙、語法及語用特性,故提議多重網頁書寫模式。基本上,作為純閱讀或文字美學欣賞,網頁內容宜以自然語言書寫,但若做為線上機譯使用,則可考慮使用控制性語言書寫,以利大幅改進其多語機譯之品質。就控制性漢語而言,亦可細分成半控制性和全控制性漢語。半控制性漢語方便MT系統譯成英語,其語法特性只需模仿英語即可;全控制性漢語則為了配合、方便多語翻譯之需求,必須嚴格管制其表達方式,其基本原則包括:「一詞一涵義」(one word one meaning)、「一句一理念」(one sentence one idea)、「句子愈短愈好」(the shorter the better)、「用詞愈通用愈好」(the plainer the better)、「句子結構愈簡單愈好」(the simpler the better),文化用詞削減其特殊性並改成放諸四海皆準的通用詞彙。網頁內容之長短、繁簡,隨著翻譯語種多寡,必須簡化其內容稠密度並縮短文本長度,自然語言書寫之網頁往往不限長度和格式,故不適合機器翻譯。目前我們很難為各種語言去量身訂做不同的控制性網頁內容,只能先以英語及其它印歐語言為標準及考量。
以上內容節錄自《網頁書寫新文體─跨界交流「快譯通」Alternative Web Textual Writing: Effective Communication Across Borders》史宗玲(Chung-ling Shih)◎著.白象文化出版
更多精彩內容請見
http://www.pressstore.com.tw/freereading/9789865780302.pdf
〈主編導讀〉
單一語言網頁文字,由機器轉譯成多國語言的時代來臨了!
智慧型手機的虛擬秘書,聽得懂不同國家的口語化指令,和使用者對話時,可直接完成多項工作的執行。
在無國界的網路世界,透過「機器翻譯」(Machine Translation, MT),一份網頁文本可以直接轉譯成不同語言,且語意正確度可在60%~90%,甚至有機會趨近100%,大量節省了網頁內容製造的翻譯時間與成本,也加速網路內容的跨語言傳播。
●如何寫,機器才看得懂?
舉例而言:線上機譯系統Google Translate已可支援七十二種語言的翻譯,其便捷、多語的功能,造福全球...
作者序
自序
今日,線上機譯系統Google Translate已可支援七十二種語言之翻譯,全球亦有為數不少的人都有使用此一便捷工具處理線上資訊多語翻譯的經驗,唯令人遺憾的是,其品質(文法正確性及可讀性)目前仍未臻理想,筆者一再思考,如何於享受機譯系統便捷性之餘仍可兼顧其譯文品質。吾等皆知,機譯品質往往會因來源語與目標語語言特性差異而有所不同;其次,機譯品質亦會受機譯系統語料庫大小、翻譯文件類型和內容的影響,筆者多次嘗試、實驗、驗證後發現:只要來源語文本符合機譯系統運作邏輯,則機器譯文品質明顯大幅提升,此意謂只要控制來源語文本,將自然語言表述打碎成最基本核心的碎片─語言表述的最原始形式,就如語言學大師Noam Chomsky(1969)所說的語言深層結構,而後再藉由機譯系統選擇合宜對應的碎片重新拼圖,以符合其運作邏輯,則譯文品質必能達到一定之水平,這種如拼圖般的書寫方式,即是筆者為提升機譯品質配合機譯系統量身訂做的控制型語言,也稱之為網路e語言。
或許有人認為e語言是一種機械式、非自然的語言,無法與通用的語言相提並論,因而對之嗤之以鼻。的確,拼圖式的控制性語言書寫時會使用一些不自然的記號或符號,如:用以區隔不同語言單位的逗號及一些以英文書寫的專有名詞,但此拼圖式書寫方式主要是為了方便機器翻譯系統運作,進而提高其譯文品質。閱讀這種拼圖式書寫或機器譯文時,不用太在意這些不自然的記號或符號,此就有如我們觀賞一張拼圖,欣賞的重點應是拼圖的完整圖像和意象,而非去計較每張小拼圖間的接縫;不可諱言,一張拼圖當然不及一幅寫實油畫或水彩畫來得逼真寫實,但我們仍可透過拼圖了解圖畫所欲傳達的訊息。換句話說,當我們閱讀機器譯文時,雖然其表述不如人工譯文來得自然、生動,但我們仍可領略其欲傳達之文化資訊,此即是機譯系統輔助跨文化溝通之功能,網頁書寫新方式即是為了配合機器翻譯而量身訂作。
回想當年白話文運動初展開時,許多文人、學者無不大力抨擊,咸認為白話文是一種不淪不類的語言變種。語言是一種有機體,會隨著環境需求而有所演變,語言使用、學習也是一回生、二回熟、三回巧,隨著時光飛逝,曾幾何時,我們日常所見、所用大多已轉為白話文體,文言文反而鮮少再見。網路語言只不過是一種載體和工具,主要用來流通資訊和文化交流,而不是為了美學欣賞,因此我們大可不必精雕細琢,只要達成清楚傳達訊息之目的即可。若我們突破現狀,使用控制性漢語書寫網頁文本,以簡單淺白的文體配合線上機器翻譯系統處理,其多國語言的譯文品質必能隨著語體改變而大幅改進,如此,藉由控制性漢語書寫網頁文本與線上機譯系統攜手合作,我們當可藉此把「自我」(本地文化)推銷給「他者」(其他國家人民),幫助「他者」了解「自我」,消弭「他者」與「自我」間社會、文化的鴻溝,促使跨國溝通和跨界交流更為快速有效。
最後,要強調的是,筆者倡導控制性漢語書寫網頁,並非要大家因此而放棄自然語言書寫,就以我們日常見到的一般印刷物與出版品為例,因其功能、目的與讀者群方面皆與網路有所差異,故仍可使用自然語言書寫或進行人工翻譯,兩者各有各自的對象與目的,彼此並不衝突,就有如繁體中文與簡體中文可同時並存一樣,控制性漢語與自然漢語亦可同時並存,不需相互排斥。
本書撰寫過程受到各方協助,首先要感謝國科會歷年來的贊助,及研究生兼任助理羅賓豪、呂宜樺、黃月狄、王于珊等人,協助筆者搜集相關資料及改寫控制性語言,同時,亦感謝大學生梁亦平的排版打字,本人先生楊雨亮為本書校稿,更要感謝白象文化的張輝潭總監願意出版本書,於此致上萬分謝意。
國立高雄第一科技大學
應用英語系暨口筆譯碩士班
史宗玲
自序
今日,線上機譯系統Google Translate已可支援七十二種語言之翻譯,全球亦有為數不少的人都有使用此一便捷工具處理線上資訊多語翻譯的經驗,唯令人遺憾的是,其品質(文法正確性及可讀性)目前仍未臻理想,筆者一再思考,如何於享受機譯系統便捷性之餘仍可兼顧其譯文品質。吾等皆知,機譯品質往往會因來源語與目標語語言特性差異而有所不同;其次,機譯品質亦會受機譯系統語料庫大小、翻譯文件類型和內容的影響,筆者多次嘗試、實驗、驗證後發現:只要來源語文本符合機譯系統運作邏輯,則機器譯文品質明顯大幅提升,此意謂只要控制來...
目錄
主編導讀
自序
第一章 網頁翻譯與科技應用
壹、前言
貳、機器翻譯與控制性語言
參、多重書寫網頁文本
第二章 控制性漢語網頁書寫原則
壹、語言演化與變革
貳、控制性漢語書寫特性及其機譯評量
參、控制性漢語書寫原則
肆、結語
第三章 控制性漢語教與學
壹、前言
貳、文獻及相關理論
參、三階段控制性語言教學法
肆、教學應用
伍、結語
第四章 控制性漢語書寫──台灣節慶網頁文本
壹、文化分享、科技應用
貳、節慶文化與翻譯
參、節慶網頁控制性漢語書寫範例
肆、結語
第五章 控制性漢語書寫──台灣民俗網頁文本
壹、文化翻譯、世界接軌
貳、民俗文化與翻譯策略
參、民俗網頁控制性漢語書寫範例
肆、結語
第六章 控制性漢語書寫──公司網頁文本
壹、前言
貳、公司網頁與翻譯策略
參、公司網頁控制性漢語書寫範例
肆、語言改進、機會無限
第七章 結論
壹、盲目歐化或選擇性歐化?
貳、成本經濟效益
參、翻譯人權
附件一、自然漢語文本及人工英譯
附件二、半控制文本及機器英譯
附件三、全控制文本及其法語機譯
附件四、備忘錄──機譯適用之定語
附件五、控制性語言之相關網站
附件六、控制性語言書寫習作
附件七、習作之參考解答
參考書目
主編導讀
自序
第一章 網頁翻譯與科技應用
壹、前言
貳、機器翻譯與控制性語言
參、多重書寫網頁文本
第二章 控制性漢語網頁書寫原則
壹、語言演化與變革
貳、控制性漢語書寫特性及其機譯評量
參、控制性漢語書寫原則
肆、結語
第三章 控制性漢語教與學
壹、前言
貳、文獻及相關理論
參、三階段控制性語言教學法
肆、教學應用
伍、結語
第四章 控制性漢語書寫──台灣節慶網頁文本
壹、文化分享、科技應用
貳、節慶文化與翻譯
參、節慶網頁控制性漢語書寫範例
肆、結語
第五章 控制性漢語書寫──台...