語音合成 Speech synthesize note

本網頁以打造無障礙閱讀為目標,可以用任何瀏覽器來觀看本網頁


本研究期望建立一套以自由軟體為基礎的國語語音合成環境,不但有相關的語音工具,函式庫,且有免費的原始程式可供使用與學習,從理論到實務皆能有良好的示範環境,繼而創造一個成功的國語語音合成計畫的社群運動。

簡介

語音合成的作法

對於 TTS 系統而言,無論接受的是一段文字的輸入或是一篇文章,這些文字本身並沒有包含任何聲學特性 ( 說話的聲調,停頓方式,發音長短等韻律 ) ,只有語言學的特性,所以必須透過自動預測的機制來產生這些文字的可能的聲學特性 (acustic feature) 而所謂自動預測的機制,一般有 rule-based 跟 knowledge-based 兩種方法,但是這兩種方法不但合成的聲音平淡又缺乏吸引力且遇到連續發音或要保留語者音色時表現都不好, 因此近來串接合成法大行其道。

語音合成的困難點

  1. 發音的自然度(清晰、流暢)。
  2. 破音字的處理。
  3. 即時處理的能力。

語音合成的4大模組

  1. 文句分析
    分析文句的語法與語意後轉成語言特徵參數
    讓電腦知道本文中哪些是詞,哪些是句子,發什麼音,怎麼發音,發音時到哪應該停頓,停頓多長等等。
    1. rule base:最大匹配法、反向最大匹配法、逐詞搜尋法、最佳匹配法、二次掃描法等等。
    2. data driven:二元文法法(Di-Grammar Method)、三元文法法(Tri-Grammar Method)、隱藏式馬可夫模型法(HMM Method)和類神經網路法(Neural Network Method)等等。
  2. 韻律產生器
    將語言特徵參數送入韻律產生器來產生文句的每個音節的對應韻律訊息,包含基頻軌跡,音量,音長等
    將說話的聲調,語氣,停頓方式,發音長短轉換成韻律參數。
    1. rule base:。
    2. data driven:類神經網路法(Neural Network Method)。
  3. 合成單元產生器
    根據語音資料庫中的單音節音素語音波形樣本輸出合成單元.
  4. 語音合成器
    根據需要發的音從聲音資料庫中選擇出合適的聲學參數,然後根據在韻律模型中得到的韻律參數,透過語音合成演算法產生語音。

語音相關應用

  1. 語音合成(Speech Synthesize):運用資訊科技使電腦或電子設備模擬人聲。
  2. 語音辨識(Speech Recognition):讓電腦聽得懂人類說話的聲音。
    1. 語者相關(Speaker Dependent):不要求語者發音準確,需先經過訓練。
    2. 非語者相關(Speaker Independent):語者發音需較正確,且無須訓練。
  3. 語者識別(Speaker Identification):辨識說話者的身份

語音學(phonetics)

語音品質的評量

對於語音品質的評量,多年來人們提出了許多方法,歸納起來大致可分為兩類,即客觀評定方法和主觀評定方法。

   客觀評定方法用客觀測量的手段來評價語音編碼的質量,常用的方法有信噪比、加權信噪比、平均分段信噪比等。它們都是建立在度量均方誤差的基礎上,其特點是計算簡單,但不能完全反映人對語音質量的感覺。這個問題對於速率為16Kbit/s以下的中、低速率語音編碼尤為突出,因此主要適用於速率較高的波形編碼類型。

   主觀評定方法符合人類聽話時對語音質量的感覺,因而目前得到廣泛應用。最主要的主觀評定方法是主觀評定等級(Subjective Opinion Scale),或稱平均評定得分(Mean Opinion Score,縮寫MOS)。MOS得分採用五級評分標準,其方法是,由數十名試聽者在相同信道環境中試聽並給予評分,然後對評分進行統計處理,求出平均得分。由於主觀和客觀上的種種原因,每次試聽所得的評分會有波動。為了減小波動的誤差,除了試聽者人數要足夠多之外,所測語音材料也要足夠豐富,試聽環境也應儘量保持相同。

在這裡要特別需要說明的是,試聽者對語音質量的主觀感覺往往是和其注意力集中程度相聯繫的,因而,對應於主觀評定等級,還有一個收聽注意力等級 (Listening Effect Scale)。下表給出主觀評定等級的質量等級、分數和相應的收聽注意力等級。

主觀評定等級表
質量等級 分數 收聽注意力等級
5 可完全放鬆,不需要注意力
4 需要注意,但不需明顯集中注意力
滿意(正常) 3 中等程度的注意力
2 需要集中注意力
1 即使努力去聽,也很難聽懂

   從用戶角度看,通常認為MOS分4.0~4.5分為高質量語音編碼,達到長途電話網的質量要求。MOS分3.5分左右稱作通信質量,這時聽者能感覺到語 音質量有所下降,但不影響正常的通話,可以滿足多數通信系統使用要求。MOS分3.0分以下常稱為合成語音質量,這種語音一般只有足夠高的可懂度,但是自 然度較差,不容易識別講話者。

   語音編碼技術標準的制定,對數位語音技術的實用化和發展起到了推動作用。

參考資料:http://159.226.2.5:89/gate/big5/www.kepu.net.cn/gb/technology/telecom/wireless/wrl216.html

語音相關專用術語

聲音的格式類型

  1. .wav : (WAVE)Microsoft作業系統的聲音檔案格式
  2. .aif : (Audio Interchange File Format,AIFF)Apple發展的格式,適用於Mac與SGI
  3. .au : (u-law)Unix作業系統的聲音檔案格式
  4. AIFC : Unix作業系統的聲音檔案格式 Audio Interchange Format Compressed
  5. .mp3 : MPEG Audio Layer-3 的聲音壓縮格式

免費的語音分析軟體

WaveSurfer
WaveSurfer is an Open Source tool for sound visualization and manipulation. It has been designed to suit both novice and advanced users. WaveSurfer has a simple and logical user interface that provides functionality in an intuitive way and which can be adapted to different tasks. It can be used as a stand-alone tool for a wide range of tasks in speech research and education. Typical applications are speech/sound analysis and sound annotation/transcription. WaveSurfer can also serve as a platform for more advanced/specialized applications. This is accomplished either through extending the WaveSurfer application with new custom plug-ins or by embedding WaveSurfer visualization components in other applications.
Speech Filing System
SFS 4/Windows is a free computing environment for PCs for conducting research into the nature of speech. It comprises software tools, file and data formats, subroutine libraries, graphics, special programming languages and tutorial documentation. It performs standard operations such as acquisition, replay, display and labelling, spectrographic and formant analysis and fundamental frequency estimation. It comes with a large body of ready made tools for signal processing, synthesis and recognition, as well as support for your own software development.
more....

未整理資料

連續 vs. 不連續語音輸入

語音辨識技術在個人電腦上可分成語音操控及語音輸入。語音操控是用語音指令來操作電腦, 而語音輸入則是用來輸入文字。而早期的語音輸入是所謂「不連續」(discrete 或 discontinuous) 的, 也就是說, 在字與字之間是需要有短暫暫停的。而隨著個人電腦硬體性能的不斷提昇、價格的不斷下滑, 以及語音辨識技術的不斷精進, 從 1997 年下半年起, 電腦語音輸入正式進入到「連續」 (continuous) 輸入時期。
相對於不連續語音輸入, 連續語音輸入在字與字之間是不需要暫停的, 使用者可以將整個句子一氣呵成地念完。以英文的語音辨識產品來說, 最大的兩家廠商為 IBM 及 Dragon。而 IBM 公司挾著其龐大的研發及行銷資源, 也不斷開發其它國家的語言版本, 中文就是 IBM ViaVoice 產品的第八種支援語言。

國內技術發展現況

我國的語音辨識產品開發以本國語言-中文(國語)為主。國內業界以台康公司首先於1991年推出語音辨識產品「捷通」語音輸入系統,包括中文語音聽寫、中文語音指令、中文語音合成等功能。倚 天公司亦於1994年發表「話匣子」語音辨識產品。兩者均屬特定人、單字音辨識的產品,辨識率不如理想。不如理想。此外,國科會 的產學合作計畫亦有多家廠商參與,台大/中研院的「金聲」系列 國語聽寫機參與廠商有倚天、明痋A成大的「音中仙」中文詞輸入系統有台康、技電、旺宏等。華隆微電子亦曾推出小詞彙(20-40詞) 語音辨識晶片(型號:HM2007)。 1995年11月蘋果電腦宣布其「中文聽寫工具」,屬特定人、單詞辨識的產品;宏眯1995年九月推出 的「渴望」多媒體家用電腦也搭配不特定人、小詞彙的英文語音指令控制功能。最近許多廠商對中文語音電腦及語音辨識晶片的開發 均表示高度興趣。以生命期而言,語音辨識產品尚處於萌芽起步階 段,市場成長率高。 語音辨識技術的發展,在歐美等先進國家由來已久,我國在這項 技術的發展,早期以學術界為主,始於台大的國語聽寫機(1983年 )研究計畫,清大、交大、成大等亦均投入研究多年。交通部電信 研究所亦有偏重電信應用的語音辨識技術研發。經濟部科技專案亦 於1991年起支持工研院電通所投入中文語音辨識技術的研發,在基礎技術及實驗環境建立之後,於1992年七月起於「前瞻性資訊技術 研究計畫」成立一子計畫,1993年完成中文語言模型設定及硬體系 統功能設計, 1994年完成在工作站之一特定人、大詞彙、單字音之國語聽寫機雛型系統整合,1995年完成以分段機率模型開發之不特 定人、中詞彙、單字音組詞辨識技術,1995年12月資訊展展出”PC 版非特定語者中文語音辨識系統”,為不特定人、中詞彙、連音詞 辨識技術(系統流程如圖一),正繼續研發語者調適、噪聲模型、麥 克風調適、標準應用程式介面、進一步提高辨識率等技術,使該技 術可以實用化、商品化,由「能用」逐漸走向「好用」、「到處可用」、和「隨時可用」的境界。另一方面,工研院電通所也同時投 入特定人、小詞彙語音辨識晶片的開發,主要為協助半導體廠商進 入消費性電子所需的語音辨識晶片領域。此外,也將開始語音合成及壓縮技術的發展

國外相關研究

研究單位 產品
AT&T Bell Labs Bell Labs TTS
BT Labs Laureate
Entropic Truetalk
Microsoft Research Whistler
Lernout & Hauspie TTS3000/M
Lucent Next Generation Speech
CSTR University of Edinburgh Festival
ETI-Eloquence ETI-Eloquence
Lernout & Hauspie Realspeak
Elan informatique Elan Speech Engine
香港中文大學人機通訊實驗室 CU VOCAL 「悠揚」語音合成系統

國內相關研究

研究單位 簡介
台大李琳山教授
相關資料
金聲一號二號三號等聽寫系統、文字轉語音系統、對話系統、語音為基礎之資訊檢索系統等。
主從式架構、網路之語音介面、隨網路資源調適之詞典和語言模型、網路語料處理、無線環境下之分散式語音處理等。
清大王小川教授 連續三年的國科會計畫「國語語音資料庫之設計與建立(MAT計畫)」(1995-1998),完成約7000人之電話語音資料收集,這是國內首次大規模的語音收集,目的在建立一個研究環境,提供國內語音處理技術研發工作者一套語音資料庫。其中資料檔之編輯程式(取名為Veditor3.0)已登記著作權。部分語音資料陸絨委託中華民國計算語言學學會發行,MAT-160、MAT-400、MAT-2400已提供學校及研究單位使用,其中MAT-2400則由國科會辦理技術移轉。
成大王駿發教授 用於根據一倒頻譜係數運算式來處理線性預測係數之以線性預測係數為基礎的倒頻譜係數產生器
語音編解碼方法及語音編解碼器
交大陳信宏教授 使用韻律訊息之類神經網路國語連續語音辨認
不特定語者國語連續音節辨認技術之探討
適合視障者使用之電腦界面技術與系統設計-子計畫二:盲用電腦之國語單詞輸入及語音輸出系統之發展
中研院許聞廉教授 中文同音字的自動辨認;中文字轉音以及語音合成系統;語音辨認的後處理(音轉字以及容錯系統);OCR、OLCR的後處理系統;各類自形輸入法同碼字的
自動選取系統;中文句型剖析(PARSING)以及斷詞系統等。
台大陳信希教授 1. 剖析系統
2. 線上即時英文翻中文服務系統
3. 臺灣本土語言互譯及語音合成系統
4. 中文斷詞及人名、組織名辨識系統
5. 多文件新聞自動摘要系統
台科大古鴻炎教授 增進參數獨立控制之彈性、並可產生豐富音色之國語音節信號合成方法
可作動態音色變換之 國語 語音合成 軟體"
客家語(Hakka)語音信號合成
整合動態詞典與馬可夫中文語言模型之方法
長庚呂仁園教授 「國台雙語語音辨認自動掛號系統」以及「台語文字轉語音(語音合成)系統」
台灣地區多語語音資料庫之建立
語音電話掛號總機

語音相關的中文書籍

  1. 楊鎮光,"Visual Basic與語音辨識-讓電腦聽話",松崗,2002。
  2. 林寰生,"數位信號-影像與語音處理",全華,1999。
  3. 謝秀琴,"數位語音訊號基本原理",全華,1996。
  4. 劉振源,"類神經網路模型與語音識別",全華,1995。
  5. 王仁華,"人機語音通信",聯經,1995。
  6. 許志興,"聲霸卡之應用與語音辨識",旗標,1994。(朝陽圖書館有藏書)
  7. 陳明瑩,"PC電腦語音辨認實做",旗標,1994。(朝陽圖書館有藏書)
  8. 黃嘉華,"聲音與多媒體PC",全華,1994。(朝陽圖書館有藏書)
  9. 許雍,"微電腦應用-語音處理",全華,1993。(朝陽圖書館有藏書,偏IC設計,探討midi較多,資工資科電子背景較適合)
  10. 吳明哲;黃世陽,"VB4.0動畫與語音技巧秘笈-使用物件導向程式設計",松崗,?。

網路資源

  1. 語音研究應用軟體
  2. 注音符號簡介
  3. Pin-yin
  4. 大陸的人機語音交互科研組(TTS)
  5. 語音合成技術的原理
  6. 大陸的語音合成相關網頁
  7. Speech Synthesis & Analysis Software
  8. 中央研究院語言學研究所籌備處語音實驗室
  9. 音頻視訊格式介紹
  10. 吳志勇博士
  11. 陳永承 Evan Chen
  12. Examples of Synthesized Speech
  13. Speech Analysis Tutorial
  14. Pitch Analysis

主 網 站:http://peterju.notlong.com (目前轉址至 http://irw.ncut.edu.tw/peterju/) Sitetag Logo

Level Triple-A conformance icon | [歡迎使用任何作業系統、瀏覽器觀看!] | Valid XHTML 1.0 Transitional | Valid CSS! | [Valid RSS] | [創意公眾許可証]
This work is licensed under a Creative Commons License