《漢語語音合成:原理和技術》介紹語音合成的原理和針對漢語的各項合成技術,以及應用的范例.全書分基礎篇和專題篇兩大部分.基礎篇介紹語音合成技術的發(fā)展歷程和作為語音合成技術基礎的聲學語音學知識,尤其是作者獲得的相關研究成果(填補了漢語語音學知識中的某些空白),并對各種合成器的工作原理和基本結構進行系統的闡述.專題篇結合近十年來國內外技術發(fā)展的熱點和方向,討論韻律分析與建模、數據駱動的語音合成方法、語音合成數據庫的構建技術、文語轉換系統的評估方法、語音合成技術的應用等。
《漢語語音合成:原理和技術》面向從事語言聲學、語音通信技術,特別是語音合成的科學工作者、工程技術人員、大學教師、研究生和高年級的大學生,可作為他們研究、開發(fā)、進修的參考書。
更多科學出版社服務,請掃碼獲取。
目 錄
序 一
序 二
前 言
基礎篇
第1章 語音合成技術史的敘述 3
1.1 機械式語音合成器 3
1.1.1 Kempelen的講話機 3
1.1.2 Euphonia講話機6
1.2 電子式語音合成器 7
1.2.1 VODER7
1.2.2 模式播放器 9
1.2.3 共振峰合成器 11
1.3 基于計算機的語音合成 13
1.3.1 數字式共振峰語音合成技術 13
1.3.2 披形拼接合成技術 19
1.4 漢語語音合成的發(fā)展 21
1.4.1 漢語合成研究的先驅 22
1.4.2 國內漢語合成技術的研究 24
1.5 總結 27
參考文獻 28
附錄合成語音樣品 30
第2章 聲學語音學 32
2.1 聲學基礎 32
2.1.1 空氣中的聲波32
2.1.2 被動方程 35
2.1.3 聲音在管子中的傳播 39
2.2 言語交際過程 43
2.2.1 語音的產生 45
2.2.2 語音的感知 49
2.3 語音的聲學特征 52
2.3.1 語音的時間維及頻率維表示 52
2.3.2 頻譜分析 54
2.3.3 語固和語音的頻譜分析方法 62
2.3.4 元音的頻譜 66
2.3.5 輔音的頻譜 69
2.3.6 音軌 70
2.4漢語普通話的音位系統 72
2.4.1 漢語普通話的輔音系統 74
2.4.2 漢語普通話的元音系統 76
2.4.3 漢語傳統的聲韻調系統 78
2.5 總結 83
參考文獻 83
第3章 韻律 86
3.1 語調模型 87
3.1.1 "調核"理論和INTSINT語調模型 87
3.1.2 Pierrehumbert有限狀態(tài)網絡模型 90
3.1.3 Tilt 語調模型 95
3.1.4 Fujisa.ki模型 98
3.1.5 PENTA模型 101
3.2 漢語普通話韻律的基本單元 106
3.2.1 詞調 106
3.2.2 短語語調 113
3.3 句調和篇章韻律 119
3.3.1 語篇語調 119
3.3.2 朗讀風格的影響 121
3.4 總結 124
參考文獻 125
第4章 漢語文語轉換系統 128
4.1 合成語音自然度的研究 128
4.1.1 合成語音自然度實驗 128
4.1.2 音聯對自然度的影響 131
4.1.3 漢語語句重音的聲學表現.138
4.2 漢語共振峰合成系統 141
4.2.1 系統框圖 141
4.2.2 合成單元 143
4.2.3 語言學處理 144
4.2.4 韻律設計 150
4.2.5 聲學處理 151
4.3 基音同步波形疊加合成 175
4.3.1 PSOLA 算法 176
4.3.2 漢語的韻律一一播音風格言語的聲學分析 186
4.3.3 KX-PSOLA 議語文語轉換系統的韻律模型 194
4.3.4 高清晰度高自然度KX-PSOLA漢語文語轉換系統 203
4.3.5 (聯想佳音》 211
4.4 總結 217
參考文獻 218
專題篇
第5章 普通話的節(jié)律和重音的實驗研究 225
5.1 基于大規(guī)模語料庫的韻律研究 225
5.1.1 語料庫的設計原則 225
5.1.2 語料庫的后期加工 227
5.1.3 語料庫的實體 232
5.2 普通話的節(jié)律組織 233
5.2.1 節(jié)律組織中的自由度 235
5.2.2 節(jié)律組織規(guī)則 239
5.3 普通話的重音標注、分類及分配 241
5.3.1 重音的知覺強度標注 243
5.3.2 重音強度的三級標注 245
5.3.3 語義重音與節(jié)奏重音 251
5.3.4 重音的分布與韻律邊界 257
5.3.5 總結 259
參考文獻 260
第6章 基于大規(guī)模語料庫的波形拼接合成 263
6.1 韻律控制策略 264
6.1.1 全控制策略 264
6.1.2 半控制策略 264
6.1.3 軟控制策略 265
6.2 基于韻律軟控制策略的TTS系統的結構 267
6.3 單元選擇和波形拼接的策略和方法 268
6.3.1 音節(jié)關聯的上下文矢量 268
6.3.2 上下文矢量的距離 270
6.4 建立語音特征覆蓋完備的言語數據庫 271
6.4.1 音庫覆蓋率與規(guī)模 271
6.4.2 言語數據披形的采集和標注 272
6.4.3 標注精度對合成自然度的影響 273
6.4.4基于上下文相關邊界模型的自動切分方法 274
6.4.5 音段披形的直接拼接合成 279
6.4.6 小結 283
6.5 木蘭技英雙語TT8系統 284
6.5.1 木蘭的結構 284
6.5.2 統一的文本標準化模塊 285
6.5.3 語言檢測和分發(fā)模塊及單元提取模塊 285
6.5.4 言語數據庫 285
6.5.5 小結 286
6.6 更多應用 286
6.6.1 個性化TTS系統 286
6.6.2 領域自適應TTS 290
6.6.3 互聯網個性化語音服務 296
6.7 總結 300
參考文獻 300
第7章 波形拼接合成語料庫生成技術 303
7.1 錄音腳本的設計 303
7.1.1 音段特征覆蓋 303
7.1.2 韻律特征覆蓋 306
7.2 發(fā)音人的挑選 307
7.2.1 發(fā)音人性別的選擇 307
7.2.2 發(fā)音人年齡的限制 308
7.2.3 發(fā)音人籍貫的選擇 308
7.2.4音魚的要求 308
7.2.5 專業(yè)水平的考查 308
7.2.6 發(fā)音人的工作時間保證 308
7.2.7 候選發(fā)音人人數的考慮 309
7.2.8 候選人的發(fā)音評估 309
7.3 音庫錄制 309
7.3.1 錄音室 310
7.3.2 錄音設備 310
7.3.3 錄音程序 312
7.4數字錄音材料的處理 314
7.4.1 復審 314
7.4.2 標音 314
7.5 總結 316
參考文獻 316
第8章 語音合成系統的質量評估 318
8.1 語音輸出系統質量評估方法 318
8.1.1 音節(jié)清晰度測試 319
8.1.2 詞和旬的可懂度測試 322
8.1.3 語句和篇單的整體性能測試 324
8.1.4 評測的原則 327
8.2 漢語語音合成質量評估 327
8.2.1 1994年"863"漢語語音合成系統評測 328
8.2.2 1995年漢語語音合成系統評價方法 329
8.3 國家語言文字工作委員會漢語語音合成系統評測 331
8.3.1 2004年漢語語音合成系統評價方法 331
8.3.2 2004年的評測結果和分析 333
8.4 MOS和PC評估方法的比較 338
8.4.1 測試文本和測試條件 339
8.4.2 MOS評估 339
8.4.3 PC測試 341
8.4.4 MOS和PC評測比較結果 343
8.5 漢語合成語音評測新方法探索 343
8.6 總結 345
參考文獻 345
附錄2004年評估測試語料 346
第9章 展望 351
9.1 STRAIGHT分析合成技術 351
9.2 基于HMM的語音合成 358
9.2.1 系統的框圖 358
9.2.2 訓練集及參數提取 359
9.2.3 HMM模型化 359
9.2.4 基于上下文聚類的決策樹 360
9.2.5 言語合成 362
9.3 從概念到語音的合成 363
9.3.1 SOLE系統 364
9.3.2 SOCS系統 365
9.4 多語種合成系統 367
9.5 口語翻譯系統 368
9.6 總結 370
參考文獻 370
后記 372