本書介紹了語音信號(hào)處理的基礎(chǔ)、原理、方法和應(yīng)用,以及該學(xué)科領(lǐng)域近年來取得的一些新的研究成果和技術(shù)。全書共分13章,內(nèi)容包括:緒論、語音信號(hào)處理的基礎(chǔ)知識(shí)、語音信號(hào)處理的常用算法、語音信號(hào)分析、語音信號(hào)特征提取技術(shù)、語音增強(qiáng)、語音識(shí)別、說話人識(shí)別、語音編碼、語音合成與轉(zhuǎn)換、語音信號(hào)情感處理、聲源定位、多模態(tài)語音信號(hào)處理。
本書可作為高等院校的教材或教學(xué)參考書,同時(shí)也可供語音信號(hào)處理等領(lǐng)域的工程技術(shù)人員參考。
第4版教材與第3版相比,系統(tǒng)介紹了深度學(xué)習(xí)技術(shù)的基本原理以及典型方法,并且在語音增強(qiáng)、說話人識(shí)別、語音編碼、語音合成與轉(zhuǎn)換、語音信號(hào)情感處理各章增加了深度學(xué)習(xí)技術(shù)在上述方向上的應(yīng)用。增加了有關(guān)多模態(tài)語音信號(hào)處理的內(nèi)容,在第13章中介紹了這個(gè)全新方向上的最新理論與應(yīng)用成果。
本教材入選戰(zhàn)略性新興領(lǐng)域十四五高等教育教材體系建設(shè)團(tuán)隊(duì)新一代信息技術(shù)(新一代通信技術(shù))。本教材的出版得到了國家自然科學(xué)基金面上項(xiàng)目、江蘇省高等教育教學(xué)改革重中之重研究課題、江蘇省教育科學(xué)十四五規(guī)劃重點(diǎn)課題資助。
《語音信號(hào)處理》是根據(jù)機(jī)械工業(yè)出版社高等院校通信與信息專業(yè)系列教材出版規(guī)劃,由通信與信息專業(yè)系列教材編審委員會(huì)編審、推薦出版的。自從2016年5月第3版出版以來,本學(xué)科領(lǐng)域的理論與實(shí)踐研究迅速發(fā)展,分析方法不斷更新,技術(shù)應(yīng)用范圍日益擴(kuò)展,對(duì)本教材內(nèi)容的更新和結(jié)構(gòu)體系的進(jìn)一步完善提出了更高的要求。面對(duì)這一情況,我們結(jié)合教學(xué)實(shí)踐,逐步明確了編寫本書第4版追求的目標(biāo),這就是在相對(duì)穩(wěn)定中力求變革,處理好經(jīng)典理論的論述與最新技術(shù)的相互融合。正是在這樣的指導(dǎo)思想下,編者對(duì)第3版教材進(jìn)行了修訂、補(bǔ)充和更新。
新版教材力求系統(tǒng)地反映語音信號(hào)處理的基本原理與方法,以及近年來該領(lǐng)域的新進(jìn)展和新技術(shù);突出基本概念、原理、方法、應(yīng)用、研究現(xiàn)狀及學(xué)科發(fā)展趨勢(shì)。在結(jié)構(gòu)上,按照基礎(chǔ)-分析-處理-應(yīng)用的順序組織材料,從最經(jīng)典的技術(shù)與應(yīng)用逐步過渡到最新最熱門的技術(shù)與應(yīng)用,使之既能滿足教學(xué)需要,又可以反映出本學(xué)科領(lǐng)域近年來發(fā)展的新成果。
第4版教材與第3版相比,除了增減了部分章節(jié)以外,基本保持了原作風(fēng)貌,認(rèn)真修訂了第3版中的錯(cuò)誤和疏漏。根據(jù)作者多年來給本科生和研究生講授語音信號(hào)處理課程的體會(huì),做了兩個(gè)主要的改變。首先,考慮到深度學(xué)習(xí)技術(shù)在語音信號(hào)處理領(lǐng)域已經(jīng)得到了廣泛應(yīng)用,我們?cè)诘?章中系統(tǒng)介紹了深度學(xué)習(xí)技術(shù)的基本原理以及典型方法,并且在語音增強(qiáng)、說話人識(shí)別、語音編碼、語音合成與轉(zhuǎn)換、語音信號(hào)情感處理各章增加了深度學(xué)習(xí)技術(shù)在上述方向上的應(yīng)用。其次,考慮到以圖像、視頻、文本、腦電波等為代表的其他模態(tài)信號(hào)在引入語音信號(hào)處理領(lǐng)域后,可望進(jìn)一步提升傳統(tǒng)語音信號(hào)處理系統(tǒng)性能,完成單一語音模態(tài)難以完成的任務(wù),本版教材還增加了有關(guān)多模態(tài)語音信號(hào)處理的內(nèi)容,在第13章中介紹了這個(gè)全新方向上的最新理論與應(yīng)用成果。
本教材主要面向信息與通信工程、電子科學(xué)與技術(shù)、模式識(shí)別與人工智能、計(jì)算機(jī)科學(xué)與技術(shù)等學(xué)科有關(guān)專業(yè)的高年級(jí)本科生和研究生,也可以作為語音信號(hào)處理領(lǐng)域科研技術(shù)人員的參考書。本書的參考學(xué)時(shí)為本科生32學(xué)時(shí)、研究生40學(xué)時(shí),可以根據(jù)不同的教學(xué)要求對(duì)其內(nèi)容進(jìn)行適當(dāng)取舍,靈活安排講課學(xué)時(shí)數(shù)。
本教材由南京郵電大學(xué)魏昕教授、東南大學(xué)趙力教授編著,南京郵電大學(xué)周亮教授提了很多有益的意見和建議,南京工程學(xué)院梁瑞宇教授對(duì)本書第3版的編寫做了很大的貢獻(xiàn),在此一并表示感謝。本教材入選戰(zhàn)略性新興領(lǐng)域十四五高等教育教材體系建設(shè)團(tuán)隊(duì)新一代信息技術(shù)(新一代通信技術(shù))。本教材的出版得到了國家自然科學(xué)基金面上項(xiàng)目(62277032、62071254)、江蘇省高等教育教學(xué)改革重中之重研究課題(2023JSJG021)、江蘇省教育科學(xué)十四五規(guī)劃重點(diǎn)課題(B/2022/01/150)資助。作者參考和引用了一些學(xué)者的研究成果、著作和論文,具體出處見參考文獻(xiàn)。在此,向這些文獻(xiàn)的著作者表示敬意和感謝。
語音信號(hào)處理是一門理論性強(qiáng)、實(shí)用面廣、內(nèi)容新、難度大的交叉學(xué)科,同時(shí)這門學(xué)科又處于快速發(fā)展之中,盡管作者在編寫過程中始終注重理論緊密聯(lián)系實(shí)際,力求以盡可能簡明、通俗的語言,深入淺出、通俗易懂地將這門學(xué)科介紹給讀者,但因編者水平有限,書中缺點(diǎn)和錯(cuò)誤在所難免,敬請(qǐng)廣大讀者批評(píng)指正。
2024年6月編者
魏昕,南京郵電大學(xué)通信與信息工程學(xué)院教授、博士生導(dǎo)師,江蘇高校青藍(lán)工程中青年學(xué)術(shù)帶頭人。2009年博士畢業(yè)于東南大學(xué),師從趙力教授。主要從事多媒體通信與信息處理、教育信息化、智慧建筑等方面的研究工作。近年來主持國家自然科學(xué)基金面上項(xiàng)目、江蘇省自然科學(xué)基金、江蘇省高等教育教學(xué)改革重中之重研究課題等;在IEEE TCOM/JSAC/TMM/TCSVT/WCM、Computers & Education、通信學(xué)報(bào)、電子學(xué)報(bào)等國內(nèi)外核心期刊上發(fā)表SCI、SSCI學(xué)術(shù)論文70余篇,出版Springer英文學(xué)術(shù)專著2本;擔(dān)任中國通信學(xué)會(huì)通信理論與信號(hào)處理專委會(huì)委員以及多個(gè)電子信息領(lǐng)域國際學(xué)術(shù)會(huì)議分論壇主席;獲得中國通信學(xué)會(huì)自然科學(xué)一等獎(jiǎng)、華夏建設(shè)科學(xué)技術(shù)一等獎(jiǎng)、 IEEE Transactions on Multimedia Best Paper Award等多項(xiàng)學(xué)術(shù)獎(jiǎng)勵(lì);獲得授權(quán)中國發(fā)明專利30余項(xiàng)、美國發(fā)明專利2項(xiàng),其中8項(xiàng)已實(shí)現(xiàn)成果轉(zhuǎn)化。
趙力,東南大學(xué)信息科學(xué)與工程學(xué)院教授、博士生導(dǎo)師。1998年博士畢業(yè)于日本京都理工大學(xué),師從原日本音響學(xué)會(huì)會(huì)長新美康永教授,現(xiàn)為中國聲學(xué)學(xué)會(huì)理事會(huì)理事、中國神經(jīng)心理學(xué)會(huì)理事、南京多媒體學(xué)會(huì)理事、東南大學(xué)信息處理與應(yīng)用工程研究中心負(fù)責(zé)人。主要從事語音信號(hào)處理、自然語言處理、聲頻和視頻信號(hào)處理、情感信息處理等方面的研究工作。在語音和聲頻信號(hào)檢測、漢語連續(xù)語音識(shí)別、說話人和環(huán)境自適應(yīng)方法、語音會(huì)話系統(tǒng)、語言翻譯系統(tǒng)、聲場景分析、語音信號(hào)中的情感信息處理等方面取得了一系列研究成果,曾為數(shù)十家企業(yè)完成音視頻處理系統(tǒng)設(shè)計(jì)。已培養(yǎng)博、碩士研究生三百余名;在IEEE TASLP/TIP/TNN、Pattern Recognition、日本音響學(xué)會(huì)志、電子學(xué)報(bào)、聲學(xué)學(xué)報(bào)等國內(nèi)外核心學(xué)術(shù)期刊發(fā)表SCI論文300余篇;主持或參與完成多項(xiàng)國家973項(xiàng)目、國家863項(xiàng)目、國家科技部重點(diǎn)研發(fā)計(jì)劃、國家自然科學(xué)基金重點(diǎn)項(xiàng)目/面上項(xiàng)目、重點(diǎn)科技攻關(guān)項(xiàng)目。獲得江蘇省科技進(jìn)步二等獎(jiǎng)3次、科學(xué)技術(shù)二等獎(jiǎng)2次、江蘇省教育廳優(yōu)秀課程群教學(xué)一等獎(jiǎng)等。
前言
第1章緒論
第2章語音信號(hào)處理的基礎(chǔ)知識(shí)
2.1語音發(fā)音及感知系統(tǒng)
2.2語音信號(hào)生成的數(shù)學(xué)模型
2.3語音基本概念與參數(shù)
2.4語音信號(hào)的數(shù)字化和預(yù)處理
2.5語音信號(hào)處理的應(yīng)用
2.6思考與復(fù)習(xí)題
第3章語音信號(hào)處理的常用算法
3.1矢量量化
3.2隱馬爾可夫模型
3.3深度學(xué)習(xí)
3.4思考與復(fù)習(xí)題
第4章語音信號(hào)分析
4.1概述
4.2語音分幀
4.3語音信號(hào)的時(shí)域分析
4.4語音信號(hào)的頻域分析
4.5語音信號(hào)的倒譜分析
4.6語音信號(hào)的線性預(yù)測分析
4.7語音信號(hào)的小波分析
4.8思考與復(fù)習(xí)題
第5章語音信號(hào)特征提取技術(shù)
5.1概述
5.2端點(diǎn)檢測
5.3基音周期估計(jì)
5.4共振峰估計(jì)
5.5思考與復(fù)習(xí)題
第6章語音增強(qiáng)
6.1概述
6.2語音特性、人耳感知特性及噪聲特性
6.3濾波器法
6.4相關(guān)特征法
6.5非線性處理法
6.6減譜法與維納濾波法
6.7基于深度學(xué)習(xí)的語音增強(qiáng)
6.8思考與復(fù)習(xí)題
第7章語音識(shí)別
7.1概述
7.2語音識(shí)別原理和識(shí)別系統(tǒng)的組成
7.3孤立字(詞)識(shí)別系統(tǒng)
7.4連續(xù)語音識(shí)別系統(tǒng)
7.5語音識(shí)別系統(tǒng)的性能評(píng)測
7.6思考與復(fù)習(xí)題
第8章說話人識(shí)別
8.1概述
8.2說話人識(shí)別方法和系統(tǒng)結(jié)構(gòu)
8.3基于矢量量化的說話人識(shí)別系統(tǒng)
8.4基于動(dòng)態(tài)時(shí)間規(guī)整的說話人確認(rèn)系統(tǒng)
8.5基于高斯混合模型(GMM)的說話人識(shí)別系統(tǒng)
8.6基于深度學(xué)習(xí)的說話人識(shí)別
8.7尚需進(jìn)一步探索的研究課題
8.8思考與復(fù)習(xí)題
第9章語音編碼
9.1概述
9.2語音編碼的評(píng)價(jià)指標(biāo)
9.3語音信號(hào)的波形編碼
9.4語音信號(hào)的參數(shù)編碼
9.5語音信號(hào)的混合編碼
9.6基于深度學(xué)習(xí)的語音編碼
9.7思考與復(fù)習(xí)題
第10章語音合成與轉(zhuǎn)換
10.1概述
10.2語音合成算法
10.3基于深度學(xué)習(xí)的語音合成
10.4常用的語音轉(zhuǎn)換方法
10.5語音轉(zhuǎn)換的研究方向
10.6思考與復(fù)習(xí)題
第11章語音信號(hào)情感處理
11.1概述
11.2情感理論與情感誘發(fā)實(shí)驗(yàn)
11.3情感的聲學(xué)特征分析
11.4實(shí)用語音情感識(shí)別算法
11.5基于深度學(xué)習(xí)的語音情感識(shí)別
11.6應(yīng)用與展望
11.7思考與復(fù)習(xí)題
第12章聲源定位
12.1概述
12.2雙耳聽覺定位原理及方法
12.4基于傳聲器陣列的聲源定位
12.5總結(jié)與展望
12.6思考與復(fù)習(xí)題
第13章多模態(tài)語音信號(hào)處理
13.1概述
13.2視覺信息輔助的語音增強(qiáng)
13.3視覺信息輔助的語音合成
13.4視覺信息輔助的語音識(shí)別
13.5多模態(tài)融合的語音情感信息處理
13.6總結(jié)與展望
13.7思考與復(fù)習(xí)題
附錄漢英名詞術(shù)語對(duì)照
參考文獻(xiàn)