《VoIP語音處理與識(shí)別》從VoIP通信過程出發(fā),以傳統(tǒng)語音識(shí)別技術(shù)為基礎(chǔ),沿著PSTN網(wǎng)信號(hào)處理和IP包信號(hào)處理兩個(gè)主線進(jìn)行研究,以語音識(shí)別的前端處理、特征提取、模型建立、后端處理過程進(jìn)行組織。針對(duì)VoIP語音識(shí)別系統(tǒng)實(shí)用化的問題,給出了一些改善語音識(shí)別系統(tǒng)性能的關(guān)鍵技術(shù),力求使得VoIP語音識(shí)別能走出實(shí)驗(yàn)室,向?qū)嵱冒l(fā)展。
全書共14章,分為:緒論、VoIP語音編碼標(biāo)準(zhǔn)、語音信號(hào)和話帶數(shù)據(jù)檢測(cè)、VoIP信道檢測(cè)、語音信號(hào)的特征提取、編解碼失配補(bǔ)償、通話模式分析、VoIP協(xié)議分析及數(shù)據(jù)獲取、丟包處理、碼流特征提取、特征選擇與特征變換、語音識(shí)別的模型、穩(wěn)健性識(shí)別技術(shù)和語音識(shí)別應(yīng)用。全書對(duì)VoIP語音處理識(shí)別技術(shù)進(jìn)行了詳盡的、深入淺出的講解,并根據(jù)作者的研究與實(shí)驗(yàn)結(jié)果提供了大量的實(shí)際參數(shù)、圖表,與實(shí)際工作聯(lián)系緊密,具有很強(qiáng)的可操作性與實(shí)用性。章節(jié)之間緊密配合、前后呼應(yīng),具有很強(qiáng)的系統(tǒng)性。同時(shí),通過書中的研究過程和研究方法,讀者能夠在以后的研究工作中受到很大的啟發(fā)。
《VoIP語音處理與識(shí)別》可作為高等院校理工科通信和信息處理及相關(guān)專業(yè)的高年級(jí)本科生和(碩士、博士)研究生的教材或參考書,也可供從事信息處理、通信工程等專業(yè)的研究人員參考。
隨著通信和信息技術(shù)的發(fā)展,特別是網(wǎng)絡(luò)技術(shù)的發(fā)展,海量文本、語音、圖像和視頻等媒體為人們提供了豐富的信息資源。對(duì)廣大用戶來說,主要是從海量信息環(huán)境中獲取有用的信息。對(duì)于管理人員來說,除了信息獲取,還需要對(duì)海量信息的內(nèi)容進(jìn)行監(jiān)管。
無論是為了獲取有價(jià)值的信息,還是對(duì)海量信息的內(nèi)容進(jìn)行監(jiān)管,在廣泛收集信息的同時(shí),需要對(duì)獲得的信息進(jìn)行有效的采集、高效的內(nèi)容識(shí)別、深層的檢索與挖掘。在海量信息智能處理中,信息采集是基礎(chǔ)、信息內(nèi)容識(shí)別是核心、信息檢索與挖掘是手段、信息獲取與監(jiān)管是目的。
信息工程大學(xué)信息工程學(xué)院“智能信息處理”方向長期從事文本分析與理解、語音處理與識(shí)別、圖像/視頻處理與識(shí)別、多源信息融合、信息檢索與挖掘等前沿學(xué)科領(lǐng)域的教學(xué)與科研,獲得了國家社科基金(重大)、國家自然科學(xué)基金、國家“863”、國防預(yù)研等多個(gè)項(xiàng)目的資助。“智能信息處理”方向的多名作者在總結(jié)和提升多年教學(xué)、科研成果的基礎(chǔ)上,編寫了這套《智能信息處理》叢書。國防工業(yè)出版社為該叢書的出版給予了大力支持。
《智能信息處理》叢書共8個(gè)分冊(cè),比較系統(tǒng)、全面地介紹了智能信息處理技術(shù)及其應(yīng)用,重點(diǎn)闡述了文本、語音、圖像及視頻等媒體的內(nèi)容識(shí)別、檢索、挖掘和監(jiān)管。該叢書可作為計(jì)算機(jī)科學(xué)與技術(shù)、電子工程、信息與通信工程、自動(dòng)控制、指揮自動(dòng)化、情報(bào)學(xué)、圖書館學(xué)、信息管理等相關(guān)專業(yè)方向的高年級(jí)本科生和研究生相關(guān)課程的教材和相關(guān)領(lǐng)域的科研、工程技術(shù)人員的參考書。
屈丹,女,吉林九臺(tái)人,1974年9月出生,博士,信息工程大學(xué)信息工程學(xué)院講師。主要從事語音處理與識(shí)別、信息融合等前沿學(xué)科的教學(xué)與科研。主持國家“863”課題、軍隊(duì)重點(diǎn)科研項(xiàng)目,鄭州市重點(diǎn)科技攻關(guān)項(xiàng)目等5項(xiàng);作為主要技術(shù)負(fù)責(zé)人,參與國家自然科學(xué)基金項(xiàng)目、軍隊(duì)重點(diǎn)科研項(xiàng)目等10多項(xiàng);獲省部級(jí)科技進(jìn)步二等獎(jiǎng)3項(xiàng),發(fā)表論文40余篇,其中10多篇次進(jìn)入三大檢索,公開出版著作3部。
王波,男,江蘇南京人,1978年1月出生,博士,信息工程大學(xué)信息工程學(xué)院講師。主要從事語音處理與識(shí)別、網(wǎng)絡(luò)協(xié)議分析等前沿學(xué)科的教學(xué)與科研。主持和參加了國家自然科學(xué)基金項(xiàng)目、國家“863”課題、國家社科基金項(xiàng)目、軍隊(duì)科研項(xiàng)目等10余項(xiàng);獲省部級(jí)科技進(jìn)步二等獎(jiǎng)2項(xiàng);發(fā)表論文30余篇,其中15篇次進(jìn)入三大檢索;公開出版著作2部。
李弼程,男,湖南衡南人.1970年7月出生,博士,留英學(xué)者.信息工程大學(xué)信息工程學(xué)院教授、博士生導(dǎo)師。主要從事文本分析與理解、語音處理與識(shí)別,圖像/視頻處理與識(shí)別、多源信息融合等前沿學(xué)科的教學(xué)與科研。主持國家自然科學(xué)基金項(xiàng)目、國家“863”課題、國家社科基金項(xiàng)目、軍隊(duì)科研項(xiàng)目等20余項(xiàng);獲省部級(jí)科技進(jìn)步一等獎(jiǎng)1項(xiàng)、二等獎(jiǎng)2項(xiàng)、三等獎(jiǎng)4項(xiàng);發(fā)表論文200余篇.其中80多篇次進(jìn)入三大檢索;已公開出版著作5部。
第1章 緒論
1.1 VoIP的基本概念和系統(tǒng)組成
1.1.1 VoIP基本概念
1.1.2 VoIP基本原理
1.1.3 VoIP系統(tǒng)基本組成
1.1.4 VoIP主要特點(diǎn)
1.1.5 VoIP的關(guān)鍵技術(shù)
1.2 語音識(shí)別的基本原理與研究內(nèi)容
1.2.1 語音識(shí)別基本原理
1.2.2 傳統(tǒng)語音識(shí)別
1.2.3 VoIP語音識(shí)別
1.3 傳統(tǒng)語音識(shí)別的發(fā)展歷程
1.4 VoIP語音識(shí)別的發(fā)展歷程
參考文獻(xiàn)
第2章 VoIP語音編碼標(biāo)準(zhǔn)
2.1 G.7 ll語音編碼
2.1.1 G.7 ll語音編碼原理
2.1.2 A律壓縮
2.1.3 u律壓縮
2.2 G.7 29語音編碼
2.2.1 G.729編碼原理
2.2.2 編碼器實(shí)現(xiàn)技術(shù)
2.2.3 解碼器功能說明
2.3 G.723.1語音編碼
2.3.1 編碼器原理
2.3.2 編碼器實(shí)現(xiàn)技術(shù)
2.3.3 解碼器原理
2.3.4 解碼器實(shí)現(xiàn)技術(shù)
參考文獻(xiàn)
第3章 語音和話帶數(shù)據(jù)檢測(cè)
3.1 話帶數(shù)據(jù)簡(jiǎn)介
3.1.1 傳真
3.1.2 調(diào)制解調(diào)器數(shù)據(jù)
3.1.3 單音信號(hào)和雙音多頻信號(hào)(DTMF)
3.2 語音和話帶數(shù)據(jù)波形的特點(diǎn)
3.2.1 語音波形的特點(diǎn)
3.2.2 話帶數(shù)據(jù)信號(hào)波形的特點(diǎn)
3.3 語音和話帶數(shù)據(jù)識(shí)別的特征分析
3.3.1 能量相關(guān)參數(shù)
3.3.2 過零率相關(guān)參數(shù)
3.3.3 0~I一化自相關(guān)函數(shù)
3.3.4 基音周期
3.3.5 譜特征
3.4 語音和話帶數(shù)據(jù)分離方法
3.5 語音與話帶數(shù)據(jù)檢測(cè)技術(shù)應(yīng)用
參考文獻(xiàn)
附錄
第4章 VolP信道檢測(cè)
4.1 聲道參數(shù)
4.2 語音信號(hào)統(tǒng)計(jì)參數(shù)
4.2.1 偏度與峰度
4.2.2 LPC峰度及偏度
4.2.3 LPCC峰度及偏度
4.3 靜態(tài)信噪比
4.4 非自然周期性參數(shù)
4.4.1 非自然嘟嘟聲
4.4.2 機(jī)器性參數(shù)
4.4.3 幀重復(fù)性
4.5 啞聲參數(shù)與中斷參數(shù)
4.5.1 啞聲參數(shù)
4.5.2 中斷參數(shù)
4.6 基于支持矢量機(jī)的VolP信道檢測(cè)方法
4.6.1 算法流程
4.6.2 支持矢量機(jī)
4.6.3 算法的具體實(shí)現(xiàn)
參考文獻(xiàn)
第5章 語音信號(hào)的特征提取
5.1 基音周期
5.1.1 基音檢測(cè)的難點(diǎn)及方法分類
5.1.2 自相關(guān)法及其改進(jìn)
5.1.3 并行處理法
5.1.4 倒譜法
5.1.5 簡(jiǎn)化逆濾波法
5.2 線性預(yù)測(cè)參數(shù)
5.2.1 線性預(yù)測(cè)信號(hào)模型
5.2.2 線性預(yù)測(cè)誤差濾波
5.2.3 語音信號(hào)的線性預(yù)測(cè)分析
5.2.4 線性預(yù)測(cè)分析的解法
5.2.5 斜格法(LatticeMethod)及其改進(jìn)
5.3 線譜對(duì)(LSP)參數(shù)
5.3.1 線譜對(duì)分析原理
5.3.2 線譜對(duì)分析的求解
5.4 倒譜系數(shù)及差分參數(shù)
5.4.1 LPCC參數(shù)
5.4.2 MFCC參數(shù)
5.4.3 ASCC參數(shù)
5.4.4 差分參數(shù)
5.5 感覺加權(quán)的線性預(yù)測(cè)(PUP)特征
5.5.1 PLP參數(shù)
5.5.2 RASTA-PI.P參數(shù)
5.6 高階信號(hào)譜類特征
5.6.1 WV譜的定義及其主要性質(zhì)
5.6.2 WV譜計(jì)算式的一些變形
參考文獻(xiàn)
第6章 編解碼失配補(bǔ)償
6.1 編解碼失配影響
6.1.1 VoIP系統(tǒng)語音傳輸
6.1.2 編解碼失配對(duì)說話人辨認(rèn)系統(tǒng)的影響
6.1.3 編解碼失配對(duì)說話人確認(rèn)系統(tǒng)的影響
6.1.4 特征參數(shù)的編碼失真
6.2 常用編解碼失配補(bǔ)償方法
6.2.1 失配補(bǔ)償?shù)幕舅枷?br>6.2.2 經(jīng)驗(yàn)補(bǔ)償技術(shù)
6.2.3 盲補(bǔ)償
6.2.4 基于特征及模型的補(bǔ)償
6.3 基于編碼失真的加權(quán)GMM模型算法
6.3.1 加權(quán)GMM模型
6.3.2 權(quán)重矩陣C的確定
6.3.3 實(shí)驗(yàn)及分析
6.4 編碼自動(dòng)匹配方法
6.4.1 編碼自動(dòng)匹配方法的基本思想
6.4.2 語音編碼檢測(cè)器
6.4.3 實(shí)驗(yàn)及分析
6.5 統(tǒng)計(jì)匹配特征變換失配補(bǔ)償算法
6.5.1 統(tǒng)計(jì)匹配的基本思想
6.5.2 線性特征變換式
6.5.3 非線性特征變換式
……
第7章 通話模式分析
第8章 VoIP協(xié)議分析及數(shù)據(jù)獲取
第9章 丟包處理
第10章 碼流特征提取
第11章 特征選擇與特征變換
第12章 語音識(shí)別的模型
第13章 穩(wěn)健性識(shí)別技術(shù)
第14章 語音識(shí)別應(yīng)用
參考文獻(xiàn)
三、傳送
在這個(gè)通道中,全部網(wǎng)絡(luò)被看成一個(gè)整體,持續(xù)不斷地從輸入端接收語音包,然后在一定時(shí)間f內(nèi)將其傳送到網(wǎng)絡(luò)輸出端。時(shí)間£可以在某個(gè)范圍內(nèi)變化,反映了網(wǎng)絡(luò)傳輸中的抖動(dòng)。網(wǎng)絡(luò)中的中間節(jié)點(diǎn)檢查每個(gè)IP數(shù)據(jù)附帶的尋址信息,并使用這個(gè)信息把該數(shù)據(jù)報(bào)轉(zhuǎn)發(fā)到目的地路徑上的下一站。網(wǎng)絡(luò)鏈路可以是支持IP數(shù)據(jù)流的任何拓?fù)浣Y(jié)構(gòu)或訪問方法。
四、IP包一數(shù)據(jù)的轉(zhuǎn)換
目的地VoIP設(shè)備接收這個(gè)IP數(shù)據(jù)報(bào)并開始處理。網(wǎng)絡(luò)級(jí)提供一個(gè)可變長度的緩沖器,用來調(diào)節(jié)網(wǎng)絡(luò)產(chǎn)生的抖動(dòng)。該緩沖器可容納許多語音包,用戶可選擇緩沖器的大小。小的緩沖器產(chǎn)生延遲較小,但不能調(diào)節(jié)大的抖動(dòng)。其次,解碼器將經(jīng)編碼的語音包解壓縮后產(chǎn)生新的語音包,這個(gè)模塊也可以按幀進(jìn)行操作,完全和解碼器的長度相同。若幀長度為15ms,則60ms的語音包被分成4幀,然后它們被解碼還原成60ms的語音數(shù)據(jù)流送人解碼緩沖器。在數(shù)據(jù)報(bào)的處理過程中,去掉尋址和控制信息,保留原始的源數(shù)據(jù),然后把這個(gè)源數(shù)據(jù)提供給解碼器。
五、數(shù)字語音轉(zhuǎn)換為模擬語音
播放驅(qū)動(dòng)器將緩沖器中的語音樣點(diǎn)(60ms,480個(gè))取出送入聲卡,通過揚(yáng)聲器按預(yù)定的頻率(例如8kHz)播出。
簡(jiǎn)而言之,語音信號(hào)在IP網(wǎng)絡(luò)上的傳送要經(jīng)過從模擬信號(hào)到數(shù)字信號(hào)的轉(zhuǎn)換、數(shù)字語音封裝成IP分組、IP分組通過網(wǎng)絡(luò)的傳送、IP分組的解包和數(shù)字語音還原到模擬信號(hào)等過程。整個(gè)過程如圖1.2所示。