章節試閱
第一章 導論
這本冊主要是beh討論台語文tī語料處理方面ê相關問題,並且針對現有ê台語文相關線頂資源做一寡介紹。
作者採用台語文來寫作,文字形式是漢羅合用,這mā是目前台語文書寫主流ê書寫形式,避免攏用漢字書寫,予部分讀者掠做是華文抑是奇怪ê火星文。漢字ê部分,遵照教育部規範ê用字,就是教育部台灣閩南語常用詞辭典 ê用字,希望幫贊台語漢字標準化ê推行;羅馬字ê部分採用白話字(教會羅馬字),因為所處理ê台語文文本,羅馬字ê部分主要是白話字,白話字tī台灣使用已經超過100冬,留真濟台語ê文本,這是台灣不止重要ê無形資產;教育部tī 2006年10月公布台灣閩南語羅馬字拼音方案(以下簡稱「台羅」),kah白話字有淡薄仔無仝,總是符號無衝突,所以teh討論白話字按怎處理ê時,mā會順紲討論台羅ê部分。
Tī這章,咱先beh對台語這个語言做簡單ê介紹。
第一節 背景
一、台灣所使用ê語言kah語言人口
根據2013年ê Ethnologue : Languages of the World(《世界語言年鑑》) ê記錄,台灣有26種語言,除去其中四種語言已經死去,koh有22種iah-koh活leh ê語言。(Lewis et.al. 2013) 台灣ê語言現況,請參考表 1 - 1。
表 1 - 1 台灣ê語言現況
語言狀態等級kah說明 語言
1 國家語言National 華語Mandarin
3 普遍使用 Wider Communication 台語(閩南語)Min nan、日語Japanese
4 教學用 Educational 台灣手語Taiwan sign language、太魯閣語Taroko
5 發展中 Developing 阿美語Amis、泰雅語Atayal、布農語Bunun、客語Hakka、排灣語Paiwan、魯凱語Rukai、雅美語Yami
6a 有活力 Vigorous 鄒語Tsou
6b 受威脅 Threatened 賽夏語Saisiyat
7 無傳承 Shifting 卑南語Puyuma
8b 接近滅絕
Nearly Extinct 荳蘭阿美語Amis Nataoran、卡那卡那布語Kanakanabu、噶瑪蘭語Kavalan、沙阿魯阿語Saaroa、邵語Thao
9 賰文獻 Dormant 貓霧拺語Babuza、西拉雅語Siraya
10 滅絕 Extinct 巴賽Basay、凱達格蘭Ketangalan、龜崙巴宰Kulon-Pazeh、拍瀑拉洪雅Papora-Hoanya
資料來源:Lewis et.al. (2013), 語言狀態分級請參考http://www.ethnologue.com/about/language-status
為著好理解,原住民語ê名稱採用華文寫法。《世界語言年鑑》所描寫ê台灣語言現況,可能kah咱ê認知無完全一致,包括日語是m̄是有親像台語hiah-nī普遍,台灣原住民語言官方ê資料是14族、42語, 是按怎kan-na太魯閣語ê語言狀態等級達到4,koh贏過客語,抑是滅絕ê語言敢kan-na這四種等等。這可能表示in對咱ê現況無夠了解,mā表示咱需要有專家學者抑是官方單位提供khah符合現況ê調查資料thang予《世界語言年鑑》做參考。
阮以Lewis et.al. (2013)為主,koh參考客委會(2011)推估ê台灣各族群人數kah原民會(2013)提供ê 2013年2月ê各族人口資料,表 1 - 2列出台灣各語言ê使用人口。
表 1 - 2 台灣各語言使用人口
語言 使用人口 引用資料發表時間 族群人口數
台語 15,000,000 1997 15,642,000*
華語 4,320,000 1993 1,777,000*
客語 2,370,000 1993 3,147,000*
阿美語Amis 138,000 2002 195,335+
手語 104,000 2004
泰雅語Atayal 79,000 1989 83,837+
排灣語Paiwan 66,100 2002 93,795+
布農語Bunun 38,000 2002 54,660+
太魯閣語Taroko 20,000 2008 28,551+
魯凱語Rukai 10,500 2002 12,540+
卑南語Puyuma 8,490 2002 12,906+
賽夏語Saisiyat 7,900 2002 6,249+
雅美語Yami 3,380 2002 4,342+
鄒語Tsou 2,130 2002 7,012+
噶瑪蘭語Kavalan 1,000 2007 1,311+
沙阿魯阿語Saaroa 300 2000
邵語Thao 300 2007 728+
卡那卡那布語Kanakanabu 250 2012
貓霧拺語Babuza 35 ?
荳蘭阿美語Amis, Nataoran 5 2000
說明:族群人口數ê資料,加“*”記號ê,資料來源是客委會(2011),加“+”記號ê,資料來源是原民會(2013)。原民會(2013)提供ê人口資料,koh有撒奇萊雅語Sakiraya 710人、賽德克語Seediq 8,412人kah iah未申報ê 17,844人
因為台灣ê戶口普查並無針對語言使用做調查,族群人口除了因為原住民族透過身分認定有khah詳細ê資料,其他族群ê人數,基本上是估計來ê。另外一个問題是,族群人口kah語言使用人口可能mā有精差,雖然資料上呈現出來ê,台語是台灣使用人口上濟ê語言,超過半數,m̄-koh可能逐家攏認為華語才是目前台灣使用人口上濟ê語言。當然,若kan-na針對台灣本土語言來講,台語是台灣使用人口上濟ê本土語言。
根據客委會(2011),台灣各族群ê人口kah比例,請看下表:
表 1 - 3 2011年台灣各族群人口kah比例
族群 人口數 比例
福佬人 15,642,000 67.5%
客人 3,147,000 13.6%
外省人 1,777,000 7.6%
原住民 409,000 1.8%
說明:來源是客委會(2011) p172,樣本數65,566人,自我單一認定,有ê人ê選擇超出這四項,包括台灣人、其他、m̄知影等等。
咱koh來看日本時代ê資料,東方孝義(1931)有彼時台灣ê語言人口概況:
表 1 - 4 1931年台灣各語言人口kah比例
語言 人口數 比例
南部福建語漳州語 132萬 33.08% 75.19%
南部福建語泉州語 168萬 42.11%
客人語 59萬 14.79%
其它支那語 3萬 0.75%
熟蕃語 5萬 1.25%
生蕃語 13萬 3.26%
日本語 19萬 4.76%
說明:語言名稱直接引用東方孝義(1931) ê寫法。
族群人口kah語言人口是小可無仝款ê概念,為著方便,咱暫時無beh對這兩項ê差異做討論。
Ùi頂面ê表thang發現,「台語」ê名稱有真濟款,總是這个語言是台灣使用人口上濟ê語言。本文beh針對「台語」做討論。
二、通世界咱人話現況
表 1 - 5 通世界咱人話人口kah比例
國家 總人口數(千人)A 咱人話人口B/比例(B/A) 語言狀態 2009咱人話人口/比例 2005咱人話人口/比例 2000咱人話人口/比例
台灣 23,120 15,000,000/
64.88% 3 15,000,000/
68.01% 15,000,000/
68.01% 15,000,000/
69.74%
新加坡 4,930 471,000/
9.55% 5 1,170,000/
27.04% 1,170,000/
26.87% 1,170,000/
33.66%
馬來西亞 28,639 2,660,000/
9.29% 3 2,660,000/
10.37% 1,946,698/
8.28% 1,946,698/
9.09%
澳門 503 18,900/
3.76% 6a - - -
汶萊 406 13,100/
3.23% 3 13,100/
3.50% 12,147/
3.33% 10,000/
3.17%
中國 1,339,725 25,700,000/
1.92% 6a 25,700,000/
1.96% 25,725,000/
1.98% 25,725,000/
2.04%
泰國 67,312 1,080,000/
1.60% 5 1,080,000/
1.71% 1,081,920/
1.67% 1,081,920/
1.79%
香港 6,864 77,610/
1.13% 5 - - -
菲律賓 88,707 592,000/
0.67% 5 592,200/
0.70% 592,200/
0.69% 592,200/
0.81%
印尼 237,642 700,000/
0.29% 7 700,000/
0.28% 700,000/
0.29% 700,000/
0.34%
排名 第25名 第24名 第24名 第21名
根據Lewis et.al. (2013)、Lewis(2009)、Gordon(2005) kah Grimes(2000),筆者kā內底kah咱人話相關ê資料整理tī表 1 - 5,thang看著2000年到2013年這十幾冬中間,世界上咱人話人口ê變化情形。其中,使用咱人話ê人口tī彼國ê比例是筆者根據彼國咱人話人口kah彼國總人口數去算ê,可能真濟國家ê咱人話人口是用估計ê,m̄-koh總人口數有變動,致使比例mā有一寡變動。
咱人話人口有四千七百外萬人,全世界六千外種語言內底,排第25名,算是真頭前。
若以人口數來看咱人話分佈,咱人話人口上濟ê前三个國家分別是中國(2,570萬)、台灣(1,500萬)kah馬來西亞(266萬)。中國雖然上濟,總是中國總人口數超過13億,致使比例上soah真低。若是用咱人話人口tī彼國ê比例來看,人口比例上懸ê前三个國家分別是台灣(64.88%)、新加坡(9.55%)kah馬來西亞(9.29%),kan-na tī台灣就佔三分之二。咱人話若beh tī世界上繼續活落去,台灣是上蓋關鍵ê所在。
雖然過去百外年來,這个語言(mā包括台灣其它ê本土語言)受著政權ê打壓kah歧視,總是相對其它所在,台灣現時有khah強烈ê母語意識,用漢字抑是羅馬字書寫ê標準化工課有官方kah民間teh推sak,國民小學mā有本土語言課程(雖然一禮拜才一節niă),另外koh-khah要緊ê是,這个語言資訊化所需要ê家私,台灣有上濟人投入。
根據表 1 - 5,kan-na馬來西亞kah汶萊,tī過去十幾冬內有更新人口資料,其他攏無,表示無新ê調查資料。另外khah特別ê是新加坡,咱人話人口數降一半khah加,是因為新ê統計kā族群人口kah語言使用人口做區別,雖然族群人口有hiah-nī濟,總是tī語言認同上,其中有ê人已經無koh繼續使用這个語言。
黃宣範(1993 p21)針對台灣各族群人口ê估計,伊認為台語人比例佔73.3%,若照伊ê估計,對照這陣台灣ê人口數,台灣ê台語人口就將近1700萬人,kah Lewis et.al. (2013) ê統計,精差200萬人。當然,kah新加坡ê問題仝款,族群人口kah語言使用人口,可能會有落差,只是無khah詳細ê資料。
Lewis et.al. (2013)對台灣ê台語ê描述,有寫一句:「De facto language of national identity(實際上國家認同ê語言)」。若是beh討論台灣ê文化軟實力,台語絕對是真要緊ê因素。
圖 1 - 1 《世界語言年鑑》對台灣ê台語ê介紹
除了表 1 - 5所列ê國家,若根據維基百科(Wikipedia) ê描寫,包括越南、緬甸、寮國,mā攏有咱人ê分佈。
目前英語是國際語言,講英語ê人,去到世界各所在,大概攏會使用英語來溝通。若用地圖來看咱人ê人口分佈,會當看出,咱人ê人口分佈大概是以南海做中心,環南海ê國家,差不多攏有講咱人話ê人口,南海會使算是咱人語族ê內海。台灣若beh kah東南亞連結,咱人話mā是一个媒介。當然,環南海ê咱人語族,中國福建是主要輸出地,台灣是上重要ê基地。
圖 1 - 2 咱人人口分佈,大概以南海做中心
三、台灣ê「閩南語」beh叫啥物名?
Tī台灣,這个語言beh叫啥物名,是一个不止困擾ê問題。
李勤岸指出,這个語言至少有17个無仝ê名稱:台語、閩南語、福建話、Hō-ló語、...(李勤岸, 洪惟仁 2007)。會有chiah-nī濟無仝ê名稱,反應出這个語言ê狀態kah處境m̄是真好。
一開始,外國人kā這个語言號做「廈門話(Amoy)」,因為清國時期廈門開港通商,in對這个語言開始有khah大量ê接觸,出版ê辭典,攏kā叫廈門話。日本統治台灣ê時,捌叫做「福建話」,後來改稱「台灣話」。戰後,國民政府來台灣,kā這个語言叫做「閩南語」。另外,客人稱呼伊叫「福佬話」。
雖然tī 2000年民進黨執政ê時,官方ê稱呼是「台灣閩南語」(kah「閩南語」這个泛稱做區別),m̄-koh目前ê官方稱呼koh kā「台灣」提掉,變做「閩南語」。
Tī民間社會,逐家通常稱呼這个語言叫「台語」。就親像「中國話」是指中國上通行ê語言,並m̄是泛稱所有中國境內ê語言,用「台語」來稱呼這个語言不止適當mā真自然。總是有人認為這个語言若獨佔「台語」這个名稱, 也莫怪這个語言會有hiah-nī濟名稱。
利用Google搜揣[chhiau-chhē],咱thang看著「台語」這个稱呼是上濟ê。其實,語言號名ê權利應該是講這个語言ê人。
表 1 - 6 台語ê各種名稱
名稱 揣著ê網頁數
台語 9,650,000
閩南語 3,460,000
台灣閩南語 1,550,000
福佬話 584,000
圖 1 - 3 利用Google trend看台語各種名稱ê熱門度
另外,kan-na看「閩」這个漢字有「虫」,會當知影這是帶歧視ê稱呼,beh用「閩南語」做這个語言ê泛稱並m̄是hiah-nī妥當,蔣為文、康培德等人建議用「咱人話」這个khah中性ê稱呼。(蔣為文2012; Kang 2013)
因為本文beh處理ê文本,以台灣為主,所以阮用「台語」稱呼這个語言,用「咱人話」做這个語言ê泛稱。
四、台語ê處境
使用人口上濟ê語言,無予執政者訂做官方語言,除了受殖民統治,世界上大概揣無這款例。因為世界政治ê因素,台灣雖然有政治實體,聯合國soah無承認台灣是一个國家。生活tī台灣ê人,普遍無認為台灣是殖民地,m̄-koh台語tī台灣ê處境, koh有符合殖民地ê特點,這的確是真奇怪ê代誌。
日本時代,台灣開始行向現代化,統治者辦教育,m̄-koh教學語言是國語(日語)。國民政府時代,教學語言仝款是國語(華語),入學考試抑是國家考試攏愛考國文(華文),利用政治力提升華語文ê地位,kā欠缺華語文能力ê人排除tī體制外(受完整日本教育ê台灣人是主要受害者)。1950年代了後,進一步沒收教會ê台語聖經,限制台語tī學校kah媒體ê使用,教育學生講台語是無水準ê方言,tī學校講台語愛罰錢抑是掛狗牌。(張學謙,施正鋒 2003)
教育體制方面,1987年解嚴了後,本土意識漸漸浮頭,1990年代初期,ùi民進黨執政ê縣市開始利用非正式課程ê時間(社團活動)開鄉土課程,1996年國小三年到六年設「鄉土教學活動」,其中包括鄉土語言教學,2001年鄉土語言(後來改名叫做本土語言)成做國小一年到六年ê正式課程。(林瑞榮 2012) M̄-koh一禮拜kan-na一節,而且實施十外冬以後,師資iah-koh是真大ê問題。
真濟無受本土語言專業教學訓練、無通過本土語言認證ê現職老師teh教本土語言課,教育部tī 2013年發公文予國小,要求ùi 2016年開始(成做正式課程ê 15冬後)現職教師若beh教台語,一定愛通過教育部台語語言能力認證中高級才會使教。另外有一批體制外ê台語支援老師,教育部稱呼in是教學支援人員,是領鐘點費來教台語課ê老師,薪水低,工課mā無啥保障。2000年民進黨執政了後,開始鼓勵大學設台灣文史相關系所,包括台灣歷史、語言、文學、文化ê系所,總是,有足額台語教學專業課程ê系kan-na少數,遮ê受過專業台語教學訓練ê學生畢業了後,就算通過教師考試,mā因為少子化ê關係,大部分無法度成做正式教師入去國小教台語,提培養國小台語師資ê台中教育大學台灣語文學系做例,到2013年已經有60位畢業生通過國小教師資格檢定,mā通過台語檢定中高級,m̄-koh kan-na四位成做國小正式教師。(丁鳳珍 2013)
政治體制方面,行政院tī 1996年設原住民委員會,2001年成立客家委員會,獨獨台語人無委員會,這反應tī各族群語言教育資源分配方面,台語ê部分是上少ê。
Tī台灣,雖然台語人口iah是khah有優勢ê,台語mā無hǒng當做瀕危語言,m̄-koh無仝世代,台語使用情形有明顯ê差異,愈少年,台語使用mā愈少。葉高華(2009)指出,中央研究院社會學研究所2003年執行ê台灣社會變遷調查第四期第四次,問卷內底其中一條問題是:「請問在家裡,您最希望您的小孩跟您說哪一種話?」2016份問卷統計出來ê結果,予人感覺真驚惶,1981-1990出世ê人,in大漢了後成家,願意kah in ê囡仔講台語ê,已經無到20%。
表 1 - 7 無仝世代ê母語態度
出生年 華語 台語 客語
1931-1940 12.80% 65.80% 12.00%
1941-1950 18.50% 63.50% 10.00%
1951-1960 30.00% 46.90% 7.90%
1961-1970 37.20% 37.40% 8.50%
1971-1980 50.80% 25.70% 6.10%
1981-1990 61.10% 18.90% 2.20%
說明:「請問在家裡,您最希望您的小孩跟您說哪一種話?」回答結果統計
第一章 導論
這本冊主要是beh討論台語文tī語料處理方面ê相關問題,並且針對現有ê台語文相關線頂資源做一寡介紹。
作者採用台語文來寫作,文字形式是漢羅合用,這mā是目前台語文書寫主流ê書寫形式,避免攏用漢字書寫,予部分讀者掠做是華文抑是奇怪ê火星文。漢字ê部分,遵照教育部規範ê用字,就是教育部台灣閩南語常用詞辭典 ê用字,希望幫贊台語漢字標準化ê推行;羅馬字ê部分採用白話字(教會羅馬字),因為所處理ê台語文文本,羅馬字ê部分主要是白話字,白話字tī台灣使用已經超過100冬,留真濟台語ê文本,這是台灣不止重要ê無形資產;教...
作者序
導讀kah說明
這本冊分做七章,第一章導論是台語文相關ê背景介紹,包括台灣多元ê語言現況,針對台語ê部分,koh ùi世界ê角度來看咱人話(閩南語)使用ê地理分佈,然後討論台語ê名稱問題,並且說明台語ê處境、轉機kah危機。紲落來介紹台語文書寫ê文字系統,包括羅馬字kah漢字兩大系統,羅馬字會以白話字為主,白話字kah漢字是咱beh處理ê文字。Koh來針對台語文語料處理,tī beh做進前,提出對這項工課ê基本了解、心理準備kah建議。
第二章討論白話字按怎處理,因為Unicode ê編碼政策會使kā兩、三个符號鬥做一个符號,所以有ê白話字符號ê Unicode編碼會使有兩款表示方式,可比“á”,有可能是單一ê符號,mā有可能是“a” kah “ ́”兩个符號鬥起來ê,仝一个符號若用無仝ê表示方式,會造成查詢ê困擾,所以阮提出用純文字ê白話字表示法成做內部表示法,這个表示法ê另外一个好處是排等([pâi-téng],sort)ê時,會照咱愛ê聲調順序來排。紲落來討論白話字搜揣ê方式,用一般ê字串比對並m̄是好ê做法,因為可能會揣著真濟無需要ê資料,阮提出兩階段ê搜揣策略,先用一般ê字串比對,揣著ê資料koh經過篩選才呈現予使用者。另外,根據實際台語羅馬字教學ê經驗,有一寡學習者聲調ê分別khah有困難,有ê學習者對入聲(-p/-t/-k/-h)khah無法度掌握,所以阮提出無聲調、入聲kah韻母ê查詢擴展ê方法,mā kā chia ê技術應用tī台語線頂字典kah台華線頂辭典ê搜揣。Koh來是白話字顯示,因為內部純文字表示法kah正式ê白話字無仝款,所以提出內部純文字表示法kah正式白話字互相轉換ê方法,純文字表示法kā代表數字ê聲調khǹg tī一个音節ê上後壁(可比“tiau5”),正式白話字ê聲調符號是tī韻母ê一个字母頂頭(可比“tiâu”),需要判斷khǹg ê位;顯示ê另外一个做法是kā白話字轉做圖形才顯示。
第三章介紹台語文處理ê一寡家私,包括白話字拼字檢查,白話字文本ê音節、語詞、語句統計,漢羅合用文本音節統計,kah漢羅合用文本斷詞,有ê是台文界有需求,有ê是執行計畫需要抑是研究需要ê家私。白話字拼字檢查是kā一个白話字音節切做聲母、韻母、聲調三部分,一个合法ê台語音節會使無聲母(可比“ūi”是合法ê台語音節),m̄-koh袂使無韻母(可比“kh” m̄是合法ê台語音節),所以愛ùi後壁(聲調)檢查到頭前(聲母)khah簡單,比一个例,“m7” kah “ma7”第一字母攏是“m”,第一个“m”是韻母,第二个“m”是聲母,若ùi頭前開始檢查,就加誠費氣。白話字音節、語詞、語句統計,主要是判斷分界ê符號(delimeter),若是漢羅文本,漢字本身mā是音節ê分界。斷詞是台語文語料beh處理ê時真基本ê家私,阮利用查辭典kah倒頭上大比對演算法來做,m̄-koh因為台語文書寫khah無一致,若是使用者ê用字kah辭典無仝,斷詞結果會錯誤,為著減少錯誤,阮提供使用者會當加添使用者詞庫ê功能來解決這个問題。
第四章teh討論beh按怎做台語文轉做聲音ê線頂系統。Kah華語比起來,台語有複雜ê連讀變調,問題相對困難。文字(輸入)ê部分,因為漢字寫法khah無一致,而且一个漢字可能有幾lō个讀音,koh愛處理斷詞,為著kā文轉音ê問題單純化,阮用白話字做文字輸入。白話字是標本調,所以需要提出變調演算法,阮先整理台語ê七種變調(規則變調、隨前變調、輕聲、再變調、á前變調、三連音變調kah升調),訂出變調ê內部表示法,了後根據討論台語變調ê著作所整理ê規則來揣變調分界組,m̄-koh chia ê規則無夠齊全[chiâu-chn̂g],所以阮掠一寡文本來看,設法ùi內底揣出變調分界組ê線索,訂出20條變調規則,包括音節、語詞、詞性kah語句四个無仝層次ê規則。詞性ê部分,因為無符合阮需要ê帶詞性標記ê台語辭典,阮利用中央研究院資訊所詞庫小組針對華語ê 46个詞性標記做基礎,kā簡化做對判斷變調有幫贊ê 12个詞性,對每一个台語語詞,透過台華辭典kā對應去華語,去查這个華語ê詞性。這个規則式ê台語變調演算法,正確率有89%。阮另外請人kā所有台語音節錄音起來,一个音節切做一个聲音檔,使用者輸入ê白話字台文,透過查辭典揣著詞性,koh經過台語變調演算法算出佗一个音節愛讀啥物聲調,了後kā對應ê聲音鬥起來做一个檔案,即時傳轉去予使用者。阮mā討論錯誤ê一寡原因,做未來改進ê參考。
因為台語變調處理ê時,詞性並無做確認(disambiguity),一个語詞可能對應m̄-nā一个詞性。第五章討論台語文ê詞性標記,目標就是beh確認每一个語詞ê詞性。因為資源有限,無法度利用人工來做大量ê詞性標記(成做訓練語料)。阮提出透過kā每一个語詞對應去華語(有khah豐富ê資源),利用華語現有ê詞性標記家私來做台語文ê詞性標記。語料來源是國立台灣文學館台語文數位典藏資料庫ê台語文本,伊是有白話字kah漢羅合用兩種文字一段落一段落對齊ê語料,(舉例:“Tâi-ôan tē-it kôan ê Gio̍k-san ê hū-kūn khah kē ê só͘-chāi ... ” 對應 “台灣第一懸ê玉山ê附近較低ê所在...”),先kā轉做語詞對齊(“台灣/Tâi-ôan 第一/tē-it 懸/kôan ê/ê 玉山/Gio̍k-san ê/ê 附近/hū-kūn 較/khah 低/kē ê/ê 所在/só͘-chāi … ”),查台華辭典揣出對應ê華語詞(“台灣{台灣} 第一{第一;絕頂} 懸{高} ê {的} 玉山{玉山} ê{的} 附近{附近} 較{較} 低{低} ê{的} 所在{去處;地方;角頭;所在;處所;場所;間量} …”),了後利用Hidden Markov Model統計模型,提詞庫小組千萬字ê華文語料庫做訓練語料,ùi chia ê華語候選詞內底揀出系統認為上適當ê華語對應詞(“台灣[台灣] 第一[第一] 懸[高] ê[的] 玉山[玉山] ê [的] 附近[附近] 較[較] 低[低] ê[的] 所在[地方] …”),一个華語詞可能有m̄-nā一个詞性,最後利用Maximal Entropy Markov Model統計模型決定詞性,對應轉來台語詞(“台灣/Tâi-ôan(Nc) 第一/tē-it(Neu) 懸/kôan(VH) ê/ê(DE) 玉山/Gio̍k-san(Nc) ê/ê(DE) 附近/hū-kūn(Nc) 較/khah(Dfa) 低/kē(VH) ê/ê(DE) 所在/só͘-chāi(Na)… ”)。根據這个方法,阮得著ê詞性標記正確率是91.6%。了後討論錯誤ê原因,做未來改進ê參考。
第四章ê台語變調處理,實作出白話字轉語音ê線頂系統,總是因為輸入是白話字,對一寡使用者有困難,若是會當直接輸入漢羅台文,系統負責kā轉做白話字,就會使koh-khah發揮系統ê效益。第六章提出利用台語辭典詞條,加上根據台語文語料(包括白話字kah漢羅合用文本兩部分)算出來ê台語音節互訊息kah相關度ê統計資料,來實作出漢羅文本kah羅馬字文本(白話字抑是台羅攏會使)互轉系統。轉換ê正確率,比進前台語信望愛提供ê互轉家私有真大ê提升。互轉系統完成了後,連結第四章所提起ê白話字台語文轉音系統,實作出khah完整ê台語文轉音系統,包括會使輸入漢字抑是羅馬字,羅馬字用白話字抑是台羅mā攏會使。
第二章到第六章所介紹ê系統攏是阮有實際參與開發ê。第七章針對目前線頂會當揣著ê台語文相關資源,分類來做介紹,無限定tī阮做ê系統,有ê系統mā會提出一寡阮ê看法。分做字型、字辭典、語料、電子冊、輸入法、斷詞、雙文字轉換系統、發音系統kah華台翻譯系統九个部分來介紹,主要beh整理現有ê資源,知影資源tī佗位,對beh參與台語文事工抑是相關研究,會當大大提升效率,mā會當感受著,看起來真冷門、弱勢ê這个領域,其實已經累積真濟有心ê人拍拚ê心血。希望後來加入ê友志,會當以這个基礎繼續向前行。
導讀kah說明
這本冊分做七章,第一章導論是台語文相關ê背景介紹,包括台灣多元ê語言現況,針對台語ê部分,koh ùi世界ê角度來看咱人話(閩南語)使用ê地理分佈,然後討論台語ê名稱問題,並且說明台語ê處境、轉機kah危機。紲落來介紹台語文書寫ê文字系統,包括羅馬字kah漢字兩大系統,羅馬字會以白話字為主,白話字kah漢字是咱beh處理ê文字。Koh來針對台語文語料處理,tī beh做進前,提出對這項工課ê基本了解、心理準備kah建議。
第二章討論白話字按怎處理,因為Unicode ê編碼政策會使kā兩、三个符號鬥做一个符號,所以有ê白話字符號ê Unico...