本書(shū)從初學(xué)者的視角出發(fā), 使用通俗易懂的語(yǔ)言比較系統(tǒng)地介紹了基于深度學(xué)習(xí)的計(jì)算機(jī)視覺(jué)解決方案開(kāi)發(fā)技術(shù), 以循序漸進(jìn)的方式詳細(xì)討論了VGG16、AlexNet、R-CNN、Fast R-CNN、Faster R-CNN、YOLO、SSD、DeepFace和FaceNet等多種典型神經(jīng)網(wǎng)絡(luò)模型的基本結(jié)構(gòu)和訓(xùn)練方法, 結(jié)合具體應(yīng)用案例生動(dòng)形象地介紹了圖像樣本數(shù)據(jù)集的獲取與處理、深度學(xué)習(xí)模型的設(shè)計(jì)與優(yōu)化、應(yīng)用系統(tǒng)的開(kāi)發(fā)與部署的基本過(guò)程, 逐步消除使用深度學(xué)習(xí)技術(shù)開(kāi)發(fā)計(jì)算機(jī)視覺(jué)應(yīng)用的認(rèn)知盲點(diǎn), 廣大讀者通過(guò)自己的努力就可以不太困難地掌握全書(shū)主要內(nèi)容, 建立強(qiáng)大的應(yīng)用技術(shù)基礎(chǔ)。
第1章 計(jì)算機(jī)視覺(jué)和深度學(xué)習(xí)簡(jiǎn)介
1.1 使用OpenCV處理圖像
1.1.1 使用OpenCV檢測(cè)顏色
1.1.2 使用OpenCV檢測(cè)形狀
1.1.3 使用OpenCV檢測(cè)人臉
1.2 深度學(xué)習(xí)的基礎(chǔ)知識(shí)
1.2.1 神經(jīng)網(wǎng)絡(luò)背后的動(dòng)力
1.2.2 神經(jīng)網(wǎng)絡(luò)中的層
1.2.3 神經(jīng)元
1.2.4 超參數(shù)
1.2.5 ANN的連接與權(quán)重
1.2.6 偏置項(xiàng)
1.2.7 激活函數(shù)
1.2.8 學(xué)習(xí)率
1.2.9 反向傳播
1.2.10 過(guò)度擬合
1.2.11 梯度下降算法
1.2.12 損失函數(shù)
1.3 深度學(xué)習(xí)的工作原理
1.3.1 深度學(xué)習(xí)過(guò)程
1.3.2 流行的深度學(xué)習(xí)程序庫(kù)
1.4 小結(jié)
習(xí)題
拓展閱讀
第2章 面向計(jì)算機(jī)視覺(jué)的深度學(xué)習(xí)
2.1 使用TensorFlow和Keras進(jìn)行深度學(xué)習(xí)
2.2 張量
2.3 卷積神經(jīng)網(wǎng)絡(luò)
2.3.1 卷積
2.3.2 池化層
2.3.3 全連接層
2.4 開(kāi)發(fā)基于CNN的深度學(xué)習(xí)解決方案
2.5 小結(jié)
習(xí)題
拓展閱讀
第3章 使用LeNet進(jìn)行圖像分類(lèi)
3.1 深度學(xué)習(xí)的網(wǎng)絡(luò)架構(gòu)
3.2 LeNet架構(gòu)
3.2.1 LeNet-1架構(gòu)
3.2.2 LeNet-4架構(gòu)
3.2.3 LeNet-5架構(gòu)
3.2.4 增強(qiáng)LeNet-4架構(gòu)
3.3 使用LeNet創(chuàng)建圖像分類(lèi)模型
3.3.1 使用LeNet進(jìn)行MNIST分類(lèi)
3.3.2 使用LeNet進(jìn)行德國(guó)交通標(biāo)志分類(lèi)
3.4 小結(jié)
習(xí)題
拓展閱讀
第4章 VGG和 AlexNet 網(wǎng)絡(luò)
4.1 AlexNet和VGG神經(jīng)網(wǎng)絡(luò)模型
4.1.1 AlexNet模型架構(gòu)
4.1.2 VGG模型架構(gòu)
4.2 使用AlexNet和VGG開(kāi)發(fā)應(yīng)用案例
4.2.1 CIFAR數(shù)據(jù)集
4.2.2 使用AlexNet模型處理CIFAR-10數(shù)據(jù)集
4.2.3 使用VGG模型處理CIFAR-10數(shù)據(jù)集
4.3 AlexNet模型和VGG模型的比較
4.4 使用CIFAR-100數(shù)據(jù)集
4.5 小結(jié)
習(xí)題
拓展閱讀
第5章 使用深度學(xué)習(xí)進(jìn)行目標(biāo)檢測(cè)
5.1 目標(biāo)檢測(cè)
5.1.1 目標(biāo)分類(lèi)、目標(biāo)定位與目標(biāo)檢測(cè)
5.1.2 目標(biāo)檢測(cè)的應(yīng)用案例
5.2 目標(biāo)檢測(cè)方法
5.3 目標(biāo)檢測(cè)的深度學(xué)習(xí)框架
5.3.1 目標(biāo)檢測(cè)的滑窗法
5.3.2 邊界框方法
5.3.3 重疊度指標(biāo)
5.3.4 非極大性抑制
5.3.5 錨盒
5.4 深度學(xué)習(xí)網(wǎng)絡(luò)架構(gòu)
5.4.1 基于區(qū)域的CNN
5.4.2 Fast R-CNN
5.4.3 Faster R-CNN
5.4.4 YOLO算法
5.4.5 單階段多框檢測(cè)器
5.5 遷移學(xué)習(xí)
5.6 實(shí)時(shí)的目標(biāo)檢測(cè)Python實(shí)現(xiàn)
5.7 小結(jié)
習(xí)題
拓展閱讀
第6章 人臉識(shí)別與手勢(shì)識(shí)別
6.1 人臉識(shí)別
6.1.1 人臉識(shí)別的應(yīng)用
6.1.2 人臉識(shí)別的過(guò)程
6.2 人臉識(shí)別的深度學(xué)習(xí)模式
6.2.1 Facebook的DeepFace解決方案
6.2.2 FaceNet的人臉識(shí)別
6.3 FaceNet的Python實(shí)現(xiàn)
6.4 手勢(shì)識(shí)別Python解決方案
6.5 小結(jié)
習(xí)題
拓展閱讀
第7章 基于深度學(xué)習(xí)的視頻分析
7.1 視頻處理
7.2 視頻分析的應(yīng)用
7.3 梯度消失和梯度爆炸
7.3.1 梯度消失
7.3.2 梯度爆炸
7.4 ResNet架構(gòu)
7.5 Inception網(wǎng)絡(luò)
7.5.1 1×1卷積
7.5.2 GoogLeNet架構(gòu)
7.5.3 Inception v2中的改進(jìn)
7.5.4 Inception v3模型
7.6 視頻分析
7.7 使用Inception v3和ResNet創(chuàng)建Python解決方案
7.8 小結(jié)
習(xí)題
拓展閱讀
第8章 端到端的網(wǎng)絡(luò)模型開(kāi)發(fā)
8.1 深度學(xué)習(xí)項(xiàng)目需求
8.2 深度學(xué)習(xí)項(xiàng)目的開(kāi)發(fā)過(guò)程
8.2.1 業(yè)務(wù)問(wèn)題的定義
8.2.2 源數(shù)據(jù)或數(shù)據(jù)收集階段
8.2.3 數(shù)據(jù)存儲(chǔ)與管理
8.2.4 數(shù)據(jù)準(zhǔn)備和擴(kuò)充
8.2.5 圖像樣本增強(qiáng)
8.3 深度學(xué)習(xí)的建模過(guò)程
8.3.1 遷移學(xué)習(xí)
8.3.2 常見(jiàn)錯(cuò)誤/挑戰(zhàn)和模型性能提高
8.3.3 模型的部署與維護(hù)
8.4 小結(jié)
習(xí)題
拓展閱讀
附錄A
A1 CNN中的主要激活函數(shù)與網(wǎng)絡(luò)層
A2 Google Colab