內容
* 2010-05-30
* 中國時報
* 林欣誼
剛上市的「遠流金庸機」,使用工研院最新一代TTS技術,讓金庸小
說不止用讀的、也能用「聽的」。
在21世紀的數位時代,我們可以閉著眼睛,在車上享受一段小說的有
聲朗讀;也能在陌生的城市裡,讓語音導航輕鬆帶路,再也不必站在街角
心慌地翻找地圖。隨著MP3、手機、閱讀器或iPad的普及,輕巧的行動電子
產品逐漸取代厚重的書籍,而資訊除了透過書面呈現,也將更依賴聽覺語
音;現在,我們甚至連眼睛都不用張開,就能「聽」到自己所要的資訊。
>>語音效果超越「機器人聲」
然而,未來應用廣泛的語音介面,將與過去我們熟悉的「有聲書」概
念不同,因為這些播音的內容並非透過耗時費力的「真人錄音」,而是仰
賴最新發展的「TTS」(Text To Speech文字轉語音合成)技術,自動將文章
內容轉換成合成語音。
這項國際上早已投入發展的技術,在台灣由工研院領先研發,近10多
年歷經了三代的技術變革。本周剛宣布上市的電子書閱讀器「遠流金庸機
」,便使用了工研院最新一代的TTS技術,可語音朗讀機器內建的36冊金庸
武俠作品,讓金庸武俠不止用讀的、也能用「聽的」,對視力不佳、或在
行動中不便閱讀螢幕的讀者來說,都是非常方便的功能。
>>大師霍金靠TTS發聲
這項技術雖名為「合成」音,但並非不自然的機器音。工研院資通所
郭志忠副主任表示,他們仍需找配音員錄音,來產生合成需要的聲音與韻
律的統計模型和參數,因此語音效果早就超越那種聲調僵硬的「機器人聲
音」。研發過程中,最重要、也最困難的部分,就是必須結合分析音韻與
詞語結構的語言學知識、建構音韻特性模型的統計方法,以及合成語音波
形的訊號處理技術,讓最後合成的閱讀聲音,不僅可做出自然流暢的語音
,沒有字與字間拼接、不連貫的現象,還可自動判別日期、金額等特殊數
字或破音字的讀法等等。
TTS能夠將電子檔的文字自動轉成語音,對視障者來說是重要且必要的
功能,因此過去工研院曾與愛盲文教基金會合作,建構有聲書下載的公益
平台。除了視障者之外,車上的導航系統,或老人、兒童、語言學習者也
都是TTS技術服務的廣大對象。其中最特別也最著名的例子為全身麻痺的美
國物理學大師霍金,他就是透過TTS技術將想表達的文字即時轉成語音發聲
,與人溝通。
郭志忠認為,過去真人錄音的有聲書因製作成本高,價格貴,所以普
及度低。進入電子書時代後,文字都已經數位化,TTS技術將更有機會搭配
電子書而普及。「亞馬遜於2009年2月發表Kindle 2時,主要的新增特色就是
TTS語音朗讀功能,可見這是電子書閱讀器發展的趨勢。」
>>最大瓶頸在授權
因為同時預見了這個趨勢,工研院與「遠流金庸機」的合作一拍即合
。但郭志忠坦言,目前電子書發展最大的瓶頸在於版權的授權與管控問題
。即便是將電子書透過合成有聲播放,大部分出版社仍主張有聲書另有版
權,如Kindle 2朗讀功能推出後,即被出版社控告侵犯版權、觸犯重製罪,
最後Kindle只好退讓,僅提供願意授權開放的書籍這項功能。
不過,除了電子書外,TTS還可應用在各種行動裝置,能夠取代電腦的
多媒體影音裝置iPad就是一個指標。郭志忠樂觀地說,未來我們不再是坐在
桌前、打開電腦才能上網與閱讀,類似iPad的行動裝置可以讓我們隨意地在
路上「聽」路況、在廚房裡「聽」食譜、在參觀博物館時即時「聽」導覽
。「這時,可以讓人在行動中使用的語音介面變得不可或缺,TTS的角色也
將更重要了。」