語音情感識別(Speech Emotion Recognition,SER)是情感計算、模式識別、信號處理和人機交互領域的熱門研究話題,SER的研究涉及特征提取、特征優(yōu)選、分類器改進、特征融合等多種技術。語音情感識別是在同一數(shù)據(jù)庫中進行的識別研究,主要應用于自然的人機交互領域,目前大部分的人機交互方式都依賴于觸覺,如觸屏、體感等,而語音情感計算可以幫助電子設備在人機交互中使用圖像和語音作為輸入,讓用戶與設備進行自然、直接的交流,就像人與人的交流一樣?鐜煺Z音情感識別則是在跨語料庫的條件下進行的識別實驗,在實際生活中的應用環(huán)境很廣,如車載環(huán)境中使用的語音交互產(chǎn)品,以及通過視頻音頻刺激來進行情感狀態(tài)評估的設備等。本書將全局隱空間加入情感模型,結合K近鄰、核學習方法、特征線重心法和LDA算法,提出了用于情感識別的FFLDA+kemel-KNNFLC方法。針對跨庫條件下情感特征類別的改進(擴充)研究,提出了基于聽覺注意模型的語譜圖特征提FF取方法,模型模擬人耳聽覺特性,能有效探測語譜圖上變化的情感特征。同時,利用時頻原子對模型進行改進,取得頻率特性信號匹配的優(yōu)勢,從時域上提取情感信息。
第1章 緒論
1.1 研究背景與意義
1.1.1 語音情感的聲學意義
1.1.2 情感計算
1.1.3 實際應用
1.1.4 語音情感識別的研究現(xiàn)狀
1.2 跨數(shù)據(jù)庫語音情感識別技術
1.2.1 發(fā)展歷史
1.2.2 研究現(xiàn)狀和存在的問題
1.3 研究的主要工作
1.4 章節(jié)安排
第2章 數(shù)據(jù)庫和特征分析
2.1 語音情感數(shù)據(jù)庫
2.1.1 國外語料庫
2.1.2 國內語料庫
2.1.3 本書使用的數(shù)據(jù)庫情況
2.1.4 跨庫情感類別劃分規(guī)則的制訂
2.2 特征分析
2.2.1 聲學特征
2.2.2 底層聲學描述符
2.2.3 語譜圖特征
2.3 性能評價標準討論
第3章 基于無限t分布的混合魯棒模型
3.1 引言
3.2 基于統(tǒng)計模型的特征選擇方案
3.3 iSMM特征優(yōu)選模型
3.3.1 學生t分布特征選擇
3.3.2 特征概率分布建模
3.3.3 判決函數(shù)評估
3.3.4 高維特征空間分析
3.4 實驗結果
3.4.1 實驗設置
3.4.2 表演型語料庫實驗
3.4.3 自發(fā)型語料庫實驗
3.4.4 多數(shù)據(jù)庫綜合實驗分析
3.5 本章小結
第4章 改進的LDA核K近鄰分類方法
4.1 引言
4.2 結合LDA的核K近鄰分類方法
4.2.1 基于核學習的KNN算法
4.2.2 恃征線重心法的改進
4.2.3 線性判別分析的改進
4.3 實驗結果分析
4.3.1 幾種KNN分類器對比實驗
4.3.2 兩種降維方案的情感識別實驗
4.3.3 與常用分類方法對比實驗
4.3.4 分類方案參數(shù)實驗分析
4.4 本章小結
第5章 改進的聽覺注意模型語譜圖特征提取
5.1 引言
5.2 基于聽覺注意的語譜圖情感特征提取
5.2.1 語譜圖特征的語音情感識別
5.2.2 基于時頻原子的改進
5.2.3 聽覺注意圖譜特征提取
5.3 仿真實驗
5.3.1 跨庫實驗設置
5.3.2 實驗結果和分析
5.4 本章小結
第6章 基于深度信念網(wǎng)絡的特征融合
6.1 引言
6.2 選擇注意機制的語譜圖特征提取
6.2.1 提取語譜圖
6.2.2 高斯金字塔分解
6.2.3 獲取特征圖并重構特征矩陣
6.3 深度信念網(wǎng)絡模型
6.3.1 受限玻爾茲曼機
6.3.2 基于對比散度的快速學習算法
6.3.3 DBN21與DBN22模型
6.4 跨庫實驗結果與分析
6.4.1 實驗準備
6.4.2 語譜圖特征跨庫實驗
6.4.3 傳統(tǒng)聲學特征跨庫實驗
6.4.4 融合特征跨庫實驗
6.5 本章小結
第7章 跨語言的多說話人特征自適應
7.1 引言
7.2 特征分析
7.2.1 增強
7.2.2 自適應規(guī)整化語譜圖特征
7.3 特征自適應方法
7.3.1 說話人加性方差模型
7.3.2 基于GMM的加性模型
7.3.3 學生t分布對差異特征空間的建模
7.4 .情感分類器模型
7.4.1 核K近鄰情感分類器
7.4.2 SVM情感分類器
7.5 跨語言語音情感識別實驗
7.5.1 數(shù)據(jù)庫設置
7.5.2 說話人自適應實驗
7.5.3 在線特征自適應實驗
7.5.4 譜特征對比實驗
7.6 本章小結
第8章 總結與展望
8.1 工作總結
8.2 后續(xù)工作與展望
參考文獻