本書詳細論述了立體視覺信號質量評價的作用、方法及其性能度量,其中立體視覺信號質量評價方法面向多種立體視覺信號,包括三維圖像、合成圖像和自由視點視頻。本書分為三部分:第一部分論述了立體視覺信號質量評價的發(fā)展背景及作用、二維圖像質量評價、三維圖像質量評價、合成圖像質量評價和合成視頻質量評價,并論述了方法性能度量;第二部分論述了面向三維圖像、合成圖像和自由視點視頻的質量評價方法,并對其性能進行了詳細比較;第三部分總結了全書并介紹了潛在的研究方向。本書對關鍵問題進行了詳細的數學描述,并給出了大量的圖示和性能對比表格,以易于讀者閱讀和理解。本書適合作為高等院校計算機科學與技術和相關專業(yè)數字圖像處理和計算機視覺課程教材,也可供對視覺質量評價領域感興趣的人員參考。
立體視覺信號質量評價在多媒體信息管理中不可或缺,具有重要的研究價值和應用價值。本書面向三維圖像、合成圖像和自由視點視頻三種立體視覺信號,論述立體視覺信號質量評價研究工作,旨在讓讀者了解新式媒體應用中的視覺質量度量問題,從而進一步了解當前科技發(fā)展的前沿,如虛擬現實、增強現實、人機交互等。
立體成像技術的迅速發(fā)展使得立體視覺信號成為人們生活中重要的多媒體數據,立體成像技術也給人們的日常生活帶來了巨大的變化。多媒體立體視覺技術在服務人們日常生活及提升生活質量的同時,也帶來了多媒體信息管理的難題。比如,海量的立體視覺信號的質量參差不齊,如何準確地預測立體視覺信號的質量并篩選出低質量立體視覺信號是十分必要的,該操作可以有效地節(jié)約存儲空間并提高多媒體資源的利用率。另外,隨著人們對多媒體立體視覺技術帶來的視覺體驗要求逐漸增加,如何提升多媒體立體視覺技術成為學術界和工業(yè)界追求的目標。立體視覺信號質量評價旨在準確地預測立體視覺信號的質量,是海量立體視覺信號篩選的重要手段。同時,它可為立體視覺信號處理算法優(yōu)化和立體視覺系統優(yōu)化提供直接的優(yōu)化目標。因此,立體視覺信號質量評價在多媒體信息管理中不可或缺,具有重要的研究價值和應用價值。
本書面向三維圖像、合成圖像和自由視點視頻三種立體視覺信號,論述立體視覺信號質量評價研究工作,旨在讓讀者了解新式媒體應用中的視覺質量度量問題,從而進一步了解當前科技發(fā)展的前沿,如虛擬現實、增強現實、人機交互等。本書的主要內容如下:
(1)針對大部分現有三維圖像質量評價模型僅考慮高級語義特征融合問題,本書提出融合多層級語義特征的三維圖像質量評價模型,它包含一個權值共享的特征提取模塊、一個特征融合模塊和一個質量回歸模塊。首先,受多層級視覺感知機制啟發(fā),使用一個權值共享的深度卷積神經網絡,提取左右視圖低級、中級和高級語義特征。其次,考慮到雙目視覺特性,構建特征融合模塊。該模塊先分別融合左右視圖的不同層級語義特征,再通過兩個卷積操作進一步融合多層級語義特征。最后,構建包含多個全連接網絡的質量回歸模塊,輸出三維圖像的質量分數。本書在兩個常用的三維圖像質量評價數據集上進行實驗,實驗結果表明所提出的模型性能超過了其他對比的模型。
(2)針對當前公開的三維圖像質量評價數據集規(guī)模過小導致模型性能比較可信度不足的問題,本書開展基于弱監(jiān)督學習的三維圖像質量評價研究。首先,構建首個大規(guī)模三維圖像質量評價數據集,并自動生成三維圖像對的相對質量作為粗粒度標簽,生成單一視圖質量作為偽標簽。其次,利用構建的三維圖像質量評價數據集,重新訓練當前主流的三維圖像質量評價模型,以更加公平的方式比較不同的模型,并探索網絡框架、輸入尺寸和額外的監(jiān)督信號對模型性能的影響。所有的測試模型均在當前公開的數據集上測試,實驗結果證明了本書構建的三維圖像數據集的必要性,并獲得了關于三維圖像質量評價模型多維度的比較。
(3)針對DIBR過程引入的非均勻失真難度量問題,本書提出結合局部變化感知和全局自然性建模的合成圖像質量評價方法。首先,使用局部高斯導數計算圖像的局部泰勒展開,用于表征圖像局部結構信息。進一步地,使用局部二值模式表示初始結構特征,并使用局部結構特征幅值對初始結構特征進行加權,得到最終的結構特征。同時,計算圖像的色度信息和顏色角度信息。類似地,計算得到顏色特征。結構特征和顏色特征共同用于感知局部變化。其次,使用全局自然性度量全局變化,包括亮度自然性和結構自然性。其中,亮度圖通過局部歸一化操作獲得;結構圖通過計算合成圖與其低通濾波圖的差異圖得到。最后,結合局部變化和全局自然性共同度量合成圖像質量。實驗證明,本書提出的方法能夠有效地度量合成圖像的質量。并且,通過剝離實驗證明了局部感知和全局建模在度量合成圖像質量變化上的有效性和互補性。
(4)針對當前自由視點視頻體驗質量評價研究中內容簡單、數據量少的問題,開展自由視點視頻體驗質量評價研究?紤]到應用場景僅有兩種(中國男子籃球聯賽和綜藝節(jié)目),本書提出有限場景內的多樣化數據收集策略,構建首個大規(guī)模自由視點視頻體驗質量評價數據集。其次,提出從粗至細的兩階段主觀數據標注法。第一階段為挑出確定的樣本,即受試者對此類樣本的評分一致性概率較高;第二階段則繼續(xù)為不確定的樣本打分。通過深入分析主觀數據,研究深度信息和人物聚集程度對自由視點視頻體驗的影響。另外,考慮到模型性能和效率的平衡,設計快速、有效的自由視點視頻體驗質量預測基準模型。率先探索幀稀疏采樣對模型性能的影響,測試多種稀疏采樣策略。實驗證明,僅使用自由視點視頻的部分幀,就可以準確地預測整個自由視點視頻的體驗質量。
本書各章之間的關系如圖1所示,內容圍繞立體視覺信號展開,具體組織結構如下。第1章是導論,首先介紹立體視覺信號質量評價的作用,然后分別介紹二維圖像質量評價、三維圖像質量評價、合成圖像質量評價、合成視頻質量評價研究,最后詳細介紹立體視覺信號質量評價方法性能度量。第2章提出融合多層級語義特征的三維圖像質量評價框架?紤]雙目視覺特性和多層級視覺感知特性,設計融合多層級語義特征的三維圖像質量評價模型。該模型使用孿生網絡分別提取三維圖像左右視圖的低、中和高級語義特征,再分別融合不同層級語義特征,最后融合不同層級交互特征,通過非線性映射,得到三維圖像質量分數。第3章提出基于弱監(jiān)督學習的三維圖像質量評價框架。針對有限訓練集容易造成模型過擬合問題,進而降低模型的可擴展能力,且難以確定不同模型真正的優(yōu)劣,提出基于弱監(jiān)督學習的三維圖像質量評價框架。為了解決數據量少的問題,構建大型三維圖像質量評價數據集(僅包含粗粒度標簽和偽標簽),并在該數據集上使用排序學習訓練不同的基準模型,探究當前主流三維圖像質量評價模型性能優(yōu)劣。進一步地,研究輸入大小對模型的影響,以及三維圖像對之間的視覺偏好約束和單視圖預測約束對模型性能的影響。第4章提出融合局部感知和全局建模的合成圖像質量評價方法。針對虛擬合成圖像非均勻失真度量難問題,分別使用局部感知度量局部失真引起的質量變化和全局建模度量全局質量變化。其中,使用局部二值模式表征結構信息和顏色信息,感知局部變化;使用全局自然性度量全局變化;結合局部和全局變化度量,計算虛擬合成圖像質量分數。第5章開展體驗質量研究。本書考慮有限應用場景內的數據多樣性,收集多視角合成視頻數據,構建一個大規(guī)模真實場景下的體驗質量評價數據集;提出從粗至細的兩階段主觀數據標注法,節(jié)省約17%標注人力;結合多種稀疏采樣策略,設計快速、有效的體驗質量預測基準模型。其中,第2、3章的研究對象是三維圖像,第4章的研究對象是合成圖像,第5章的研究對象是自由視點視頻。第6章提出方法總結與潛在的研究方向,總結本書的研究工作,并指出未來潛在的發(fā)展方向。
在本書編寫過程中,參考了國內外眾多研究者的工作,在此衷心感謝他們對立體視覺信號質量評價工作的貢獻。
衷心希望本書能夠給讀者帶來啟發(fā),引發(fā)更多有意義的研究工作。著者相信,立體視覺技術將得到進一步的發(fā)展,造福社會。由于著者水平有限,書中不妥和疏漏之處在所難免,歡迎廣大讀者批評指正。
著者
2023年6月
鄢杰斌,男,1994年12月生,博士,江西財經大學信息管理學院講師,專業(yè)方向為多媒體處理和人工智能,主授課程包括多媒體技術基礎、人工智能實踐和學術論文寫作等,榮獲碩士研究生國家獎學金、博士研究生國家獎學金、江西省博士十佳學術之星、江西財經大學研究生標兵等榮譽。