本書著重闡述了深度學習時代的計算機視覺算法的工作原理,首先對深度學習與計算機視覺基礎(chǔ)進行了介紹,之后對卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的演化過程,以及基于深度學習的目標檢測算法、圖像分割算法、人體姿態(tài)估計算法、行人重識別與目標跟蹤算法、人臉識別算法以及圖像超分辨率重建方法進行了介紹。本書系統(tǒng)講解了在日常生活和工作中常見的幾項計算機視覺任務(wù),并著重介紹了在當今深度學習時代,這些計算機視覺任務(wù)是如何工作的,可使讀者快速了解這些算法原理,以及其相互之間的關(guān)系。本書適合高年級本科生、研究生、教師,以及對人工智能或計算機視覺算法感興趣的工程技術(shù)人員閱讀。
1.選題方向前沿,復(fù)現(xiàn)新的研究成果,包括ResNet、ShuffleNet、SqueezeNet等數(shù)據(jù)集中的成果;學習先進的算法技術(shù),包括對象檢測、目標跟蹤、遷移學習以及生成對抗網(wǎng)絡(luò)等。
2.作者均是深度學習和計算機視覺領(lǐng)域的一線研究人員,擁有多個重大項目的開發(fā)落地經(jīng)驗,獲得多項科技進步獎。
3.本書深入淺出,用豐富詳細的架構(gòu)圖、流程圖生動展現(xiàn),從根源剖析數(shù)據(jù)流的概念和原理,使晦澀難懂的專業(yè)概念清晰呈現(xiàn)。
徐從安,工學博士,海軍航空大學信息融合研究所副教授,清華大學訪問學者,入選中國科協(xié)青年人才托舉工程。長期從事智能信息處理、計算機視覺研究,主持或參與國家自然科學基金、裝備預(yù)研等課題項目10余項,相關(guān)成果獲省部級科技進步獎4項。發(fā)表SCI、EI收錄論文30余篇,出版譯著1部,授權(quán)專利10余項。
李健偉,工學博士,主要研究方向為計算機視覺、雷達和電子對抗等,發(fā)表學術(shù)論文10余篇,牽頭編寫學術(shù)專著2本,獲中國指揮與控制學會科學技術(shù)獎二等獎1項,構(gòu)建了國內(nèi)外首個用于SAR圖像船舶目標檢測的數(shù)據(jù)集SSDD。
董云龍,工學博士,海軍航空大學信息融合研究所教授,主要研究方向為雷達信息處理、多源信息融合,主持雷達雜波抑制、目標檢測、誤差配準等相關(guān)科研項目20余項,曾獲國家科技進步獎二等獎,省部級科技進步獎一等獎、二等獎共5項。
孫超,工學博士,主要研究方向為圖像處理、計算機視覺等,發(fā)表SCI、EI收錄論文10余篇,參與編寫學術(shù)專著2本,授權(quán)專利2項。
第 1章 深度學習與計算機視覺基礎(chǔ) 001
1.1 人工智能簡介 002
1.2 深度學習的崛起以及存在的問題 003
1.3 神經(jīng)網(wǎng)絡(luò)的基本概念 004
1.3.1 前饋神經(jīng)網(wǎng)絡(luò) 005
1.3.2 反向傳播算法 005
1.3.3 權(quán)重系數(shù)更新 007
1.4 卷積神經(jīng)網(wǎng)絡(luò)原理 007
1.4.1 CNN的起源與發(fā)展 008
1.4.2 CNN結(jié)構(gòu)簡介 009
1.4.3 CNN的其他組件 016
1.5 計算機視覺簡介 019
參考文獻 020
第 2章 基于深度學習的圖像分類算法 023
2.1 圖像分類——從特征設(shè)計到卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計 024
2.2 卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)演化 026
2.2.1 從LeNet到VGG 026
2.2.2 Inception系列 028
2.2.3 ResNet系列 029
2.2.4 DenseNet系列 031
2.2.5 SqueezeNet系列 033
2.2.6 ShuffleNet系列 034
2.2.7 MobileNet系列 035
2.3 神經(jīng)架構(gòu)搜索 037
2.4 CNN的計算量與參數(shù)計算方法 037
2.5 小結(jié) 038
參考文獻 039
第3章 基于深度學習的目標檢測算法 043
3.1 目標檢測——從特征設(shè)計到深度學習 044
3.1.1 任務(wù)簡介 044
3.1.2 傳統(tǒng)的目標檢測算法 045
3.1.3 基于深度學習的目標檢測方法 046
3.2 目標檢測的重要概念 047
3.2.1 交并比和非極大值抑制 047
3.2.2 難負樣本挖掘 048
3.2.3 邊框回歸 049
3.2.4 檢測任務(wù)中的數(shù)據(jù)增廣 050
3.2.5 先驗框/默認邊框/錨框 050
3.2.6 錨框與真實邊框的匹配策略 051
3.2.7 感受野 051
3.2.8 RoI特征圖映射 052
3.3 雙階段檢測算法 054
3.3.1 從R-CNN到Fast R-CNN 054
3.3.2 Faster R-CNN算法原理 057
3.4 單階段檢測算法 061
3.4.1 YOLO檢測算法 061
3.4.2 SSD檢測算法 067
3.5 融合單階段和雙階段的算法 073
3.5.1 單階段檢測算法及雙階段檢測算法的特點 073
3.5.2 RefineDet:結(jié)合單階段及雙階段優(yōu)點 074
3.6 從頭訓(xùn)練的檢測算法 075
3.6.1 從頭訓(xùn)練的檢測算法簡介 075
3.6.2 精心設(shè)計CNN實現(xiàn)從頭訓(xùn)練 076
3.6.3 從頭訓(xùn)練的本質(zhì) 077
3.7 檢測任務(wù)中的級聯(lián)設(shè)計 079
3.7.1 傳統(tǒng)的級聯(lián)檢測算法 079
3.7.2 深度學習下的級聯(lián)檢測 079
3.8 多尺度目標檢測 081
3.8.1 問題描述以及常用方法 081
3.8.2 多尺度訓(xùn)練/測試 082
3.8.3 特征金字塔融合多層特征 082
3.8.4 小尺寸目標檢測 086
3.9 檢測任務(wù)中的不平衡處理策略 087
3.9.1 雙階段中的不平衡策略 087
3.9.2 單階段中的不平衡策略 088
3.10 錨框的輪回 089
3.10.1 錨框的起源 089
3.10.2 現(xiàn)有檢測算法中錨框的設(shè)計方法 090
3.10.3 錨框存在的問題 091
3.10.4 不需要錨框的算法 092
3.11 目標檢測的骨干網(wǎng)絡(luò)設(shè)計 092
3.12 檢測算法加速 093
3.12.1 檢測流程的加速 094
3.12.2 檢測算法的輕量級網(wǎng)絡(luò) 094
3.13 自然場景文字檢測 095
3.14 遙感圖像目標檢測 096
3.15 常用數(shù)據(jù)集和評價指標 098
參考文獻 099
第4章 基于深度學習的圖像語義分割算法 103
4.1 圖像語義分割簡介 104
4.2 語義分割研究難點 105
4.3 語義分割算法模型 106
4.3.1 全卷積網(wǎng)絡(luò)基礎(chǔ)算法:FCN算法 106
4.3.2 編碼 解碼結(jié)構(gòu)算法:U-Net算法 109
4.3.3 空洞卷積的應(yīng)用:DeepLab系列 111
4.4 圖像實時語義分割 117
4.4.1 實時語義分割簡介 117
4.4.2 ENet算法 118
4.5 圖像分割數(shù)據(jù)集以及評價指標 122
4.5.1 圖像分割數(shù)據(jù)集 122
4.5.2 語義分割評估指標 123
參考文獻 124
第5章 基于深度學習的人體姿態(tài)估計算法 127
5.1 人體姿態(tài)估計任務(wù)簡介 128
5.1.1 任務(wù)簡介 128
5.1.2 面臨的挑戰(zhàn) 130
5.1.3 方法概述 130
5.2 單人姿態(tài)估計 132
5.3 自頂向下的多人姿態(tài)估計 133
5.4 自底向上的多人姿態(tài)估計 134
5.5 常用數(shù)據(jù)集以及評價指標 136
參考文獻 136
第6章 基于深度學習的行人重識別與目標跟蹤 139
6.1 行人重識別任務(wù)簡介 140
6.1.1 任務(wù)簡介 140
6.1.2 工作流程 141
6.1.3 面臨的挑戰(zhàn) 142
6.1.4 與行人跟蹤和人臉驗證的關(guān)系 143
6.1.5 行人重識別數(shù)據(jù)集及評價指標 144
6.2 特征提取和相似度度量 144
6.3 行人重識別:從全局特征到局部特征 145
6.4 行人重識別:從表征學習到度量學習 148
6.5 目標跟蹤任務(wù)簡介 149
6.6 基于相關(guān)濾波的目標跟蹤算法 150
6.7 基于孿生網(wǎng)絡(luò)的跟蹤算法 151
參考文獻 153
第7章 基于深度學習的人臉識別 155
7.1 任務(wù)簡介 156
7.1.1 人臉驗證和人臉識別的區(qū)別 156
7.1.2 圖像分類和人臉識別的異同 157
7.1.3 技術(shù)難點 157
7.1.4 人臉識別算法原理 158
7.2 Softmax原理及存在的問題 160
7.2.1 Softmax函數(shù)和Softmax損失 160
7.2.2 Softmax存在的問題 161
7.3 度量損失 162
7.3.1 對比損失 162
7.3.2 三元組損失 163
7.4 大間隔損失 165
7.4.1 L-Softmax 165
7.4.2 SphereFace 166
7.4.3 CosFace 167
7.4.4 ArcFace 167
7.4.5 大間隔損失總結(jié) 168
7.5 特征規(guī)范化和權(quán)重規(guī)范化 171
參考文獻 172
第8章 基于深度學習的圖像超分辨率重建方法 175
8.1 任務(wù)簡介 176
8.2 傳統(tǒng)方法 179
8.2.1 基于插值的方法 179
8.2.2 基于重建的方法 180
8.2.3 基于學習的方法 180
8.3 基于卷積神經(jīng)網(wǎng)絡(luò)的圖像超分辨率重建方法 181
8.3.1 網(wǎng)絡(luò)模型 182
8.3.2 損失函數(shù) 184
8.3.3 訓(xùn)練樣本 184
8.3.4 訓(xùn)練策略 185
8.4 常用數(shù)據(jù)集與評價指標 186
參考文獻 187