深度學(xué)習(xí)是當(dāng)前人工智能的引領(lǐng)技術(shù),是引發(fā)新一輪人工智能熱潮的原動(dòng)力。本書從模型、算法、原理等角度全面介紹深度學(xué)習(xí)技術(shù),包括近兩年最新成果。全書由三大部分組成。第一部分是機(jī)器學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)基礎(chǔ),包括機(jī)器學(xué)習(xí)問(wèn)題、淺層機(jī)器學(xué)習(xí)、早期神經(jīng)網(wǎng)絡(luò)等;第二部分是深度學(xué)習(xí)模型及算法,包括深度生成模型、卷積網(wǎng)絡(luò)、循環(huán)和遞歸網(wǎng)絡(luò)、表示學(xué)習(xí)等。第三部分是深度學(xué)習(xí)理論基礎(chǔ)和前沿課題,包括深度學(xué)習(xí)表達(dá)能力分析、深度學(xué)習(xí)泛化能力分析、深度學(xué)習(xí)可視化、深度學(xué)習(xí)的數(shù)學(xué)、物理、神經(jīng)科學(xué)基礎(chǔ)等。
更多科學(xué)出版社服務(wù),請(qǐng)掃碼獲取。
目錄
前言
1 深度學(xué)習(xí)概述 1
1.1 人工智能與深度學(xué)習(xí) 1
1.2 深度學(xué)習(xí)的發(fā)展 2
1.2.1 深度學(xué)習(xí)的提出 2
1.2.2 深度學(xué)習(xí)的發(fā)展歷程 4
1.2.3 深度學(xué)習(xí)的知識(shí)體系 23
1.2.4 深度學(xué)習(xí)的數(shù)學(xué)基礎(chǔ) 25
1.2.5 深度學(xué)習(xí)的典型應(yīng)用 27
1.2.6 深度學(xué)習(xí)當(dāng)前面臨的挑戰(zhàn) 33
1.2.7 深度學(xué)習(xí)的未來(lái) 35
1.3 閱讀材料 36
參考文獻(xiàn) 37
2 機(jī)器學(xué)習(xí)基礎(chǔ) 44
2.1 機(jī)器學(xué)習(xí)基本概念 44
2.1.1 定義 44
2.1.2 數(shù)據(jù) 45
2.1.3 機(jī)器學(xué)習(xí)的三要素 45
2.1.4 歸納偏好 47
2.2 機(jī)器學(xué)習(xí)發(fā)展歷程 48
2.2.1 符號(hào)學(xué)派 48
2.2.2 聯(lián)結(jié)學(xué)派 50
2.2.3 進(jìn)化學(xué)派 51
2.2.4 貝葉斯學(xué)派 52
2.2.5 類推學(xué)派 53
2.3 生成模型和判別模型 54
2.4 監(jiān)督學(xué)習(xí) 55
2.4.1 任務(wù)描述 55
2.4.2 評(píng)價(jià)標(biāo)準(zhǔn) 59
2.4.3 常用方法 60
2.5 無(wú)監(jiān)督學(xué)習(xí) 73
2.5.1 任務(wù)描述 73
2.5.2 評(píng)價(jià)標(biāo)準(zhǔn) 74
2.5.3 常用方法 75
2.6 強(qiáng)化學(xué)習(xí) 88
2.6.1 任務(wù)描述 88
2.6.2 評(píng)價(jià)標(biāo)準(zhǔn) 90
2.6.3 常用方法 91
2.7 閱讀材料 96
參考文獻(xiàn) 97
3 早期神經(jīng)網(wǎng)絡(luò) 100
3.1 早期研究成果 100
3.1.1 神經(jīng)網(wǎng)絡(luò)雛形 100
3.1.2 MCP神經(jīng)元模型 101
3.1.3 Hebbian學(xué)習(xí)規(guī)則 103
3.2 感知機(jī) 104
3.3 多層感知機(jī) 108
3.3.1 多層感知機(jī)的結(jié)構(gòu) 108
3.3.2 多層感知機(jī)的通用近似性 109
3.3.3 前向傳播過(guò)程 111
3.3.4 反向傳播過(guò)程 112
3.3.5 訓(xùn)練過(guò)程實(shí)例 116
3.4 其他神經(jīng)網(wǎng)絡(luò)模型 121
3.4.1 自組織映射 121
3.4.2 Hopfield網(wǎng)絡(luò) 123
3.5 神經(jīng)網(wǎng)絡(luò)的激活函數(shù) 125
3.6 深度的必要性 129
3.7 閱讀材料 133
參考文獻(xiàn) 134
4 深度學(xué)習(xí)的優(yōu)化 136
4.1 深度學(xué)習(xí)優(yōu)化的困難和挑戰(zhàn) 136
4.1.1 局部極小值問(wèn)題 137
4.1.2 鞍點(diǎn)問(wèn)題 137
4.1.3 海森矩陣病態(tài)問(wèn)題 138
4.1.4 梯度爆炸 139
4.1.5 梯度消失 140
4.2 梯度下降基本方法 141
4.2.1 批梯度下降 142
4.2.2 隨機(jī)梯度下降 143
4.2.3 小批量梯度下降 144
4.3 動(dòng)量 145
4.3.1 動(dòng)量法 145
4.3.2 Nesterov動(dòng)量法 147
4.4 自適應(yīng)學(xué)習(xí)率算法 148
4.4.1 Adagrad算法 149
4.4.2 RMSprop算法 151
4.4.3 AdaDelta算法 153
4.4.4 Adam算法 155
4.4.5 Adamax算法 161
4.4.6 Nadam算法 162
4.4.7 AMSgrad算法 163
4.5 二階近似法 165
4.5.1 牛頓法 165
4.5.2 DFP算法 166
4.5.3 BFGS算法 167
4.5.4 L-BFGS算法 168
4.5.5 共軛梯度算法 169
4.6 超參數(shù)調(diào)節(jié)方法 171
4.6.1 權(quán)值初始化 171
4.6.2 自動(dòng)調(diào)節(jié)方法 171
4.6.3 手動(dòng)調(diào)節(jié)方法 173
4.7 策略方法 174
4.7.1 批歸一化 175
4.7.2 預(yù)訓(xùn)練 175
4.7.3 神經(jīng)網(wǎng)絡(luò)的壓縮和加速 176
4.8 閱讀材料 179
參考文獻(xiàn) 180
5 正則化 184
5.1 理論框架 184
5.1.1 基本概念 184
5.1.2 過(guò)擬合與欠擬合 185
5.1.3 神經(jīng)網(wǎng)絡(luò)領(lǐng)域的正則化框架 186
5.2 參數(shù)范數(shù)懲罰 187
5.2.1 L2正則化 187
5.2.2 L1正則化 188
5.3 基于數(shù)據(jù)的正則化 189
5.3.1 數(shù)據(jù)集擴(kuò)增 189
5.3.2 Dropout 190
5.4 基于優(yōu)化過(guò)程的正則化 195
5.5 基于函數(shù)模型的正則化 197
5.6 基于誤差函數(shù)的正則化 198
5.7 閱讀材料 199
參考文獻(xiàn) 199
6 卷積神經(jīng)網(wǎng)絡(luò) 201
6.1 卷積神經(jīng)網(wǎng)絡(luò)的神經(jīng)科學(xué)基礎(chǔ) 201
6.2 卷積神經(jīng)網(wǎng)絡(luò)的基本結(jié)構(gòu) 202
6.3 卷積神經(jīng)網(wǎng)絡(luò)的操作 205
6.3.1 卷積層操作 205
6.3.2 池化層操作 208
6.3.3 激活函數(shù) 211
6.4 設(shè)計(jì)卷積神經(jīng)網(wǎng)絡(luò)的動(dòng)機(jī) 215
6.4.1 局部連接 215
6.4.2 參數(shù)共享 218
6.4.3 理解卷積層 219
6.4.4 理解整流線性單元 223
6.4.5 理解池化層 225
6.4.6 卷積與池化作為強(qiáng)先驗(yàn)分布 229
6.5 卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練 230
6.5.1 卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練過(guò)程 230
6.5.2 輸入圖像預(yù)處理 237
6.5.3 卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練技巧 240
6.5.4 卷積神經(jīng)網(wǎng)絡(luò)實(shí)例 241
6.6 CNN用于圖像分類 244
6.6.1 AlexNet 244
6.6.2 ZFNet 246
6.6.3 VGGNet 249
6.6.4 Inception 250
6.7 殘差神經(jīng)網(wǎng)絡(luò) 258
6.7.1 ResNet 258
6.7.2 ResNet V2 262
6.7.3 ResNeXt 267
6.7.4 DenseNet 268
6.7.5 MobileNet 270
6.7.6 ShuffleNet 271
6.7.7 Wide Residual Networks 272
6.7.8 Dual Path Network 274
6.8 CNN用于目標(biāo)檢測(cè) 275
6.8.1 R-CNN 276
6.8.2 Fast R-CNN 278
6.8.3 Faster R-CNN 280
6.8.4 Mask R-CNN 282
6.9 CNN用于像素級(jí)語(yǔ)義分割 285
6.10 CNN用于超高分辨率成像 288
6.11 球形卷積神經(jīng)網(wǎng)絡(luò) 292
6.11.1 球形卷積神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)動(dòng)機(jī) 292
6.11.2 球形空間與旋轉(zhuǎn)組之間的關(guān)系 293
6.11.3 應(yīng)用G-FFT代替卷積操作 294
6.11.4 球形卷積神經(jīng)網(wǎng)絡(luò)實(shí)驗(yàn) 295
6.12 CNN用于文本處理 296
6.12.1 KimCNN 296
6.12.2 DCNN 298
6.13 膠囊網(wǎng)絡(luò) 301
6.13.1 動(dòng)態(tài)路由膠囊網(wǎng)絡(luò) 301
6.13.2 EM路由矩陣膠囊網(wǎng)絡(luò) 308
6.13.3 膠囊與卷積神經(jīng)網(wǎng)絡(luò)的區(qū)別 313
6.14 閱讀材料 314
參考文獻(xiàn) 315
7 循環(huán)神經(jīng)網(wǎng)絡(luò) 323
7.1 簡(jiǎn)單循環(huán)神經(jīng)網(wǎng)絡(luò) 324
7.1.1 簡(jiǎn)單循環(huán)神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu) 324
7.1.2 循環(huán)神經(jīng)網(wǎng)絡(luò)的算法 328
7.2 循環(huán)神經(jīng)網(wǎng)絡(luò)的訓(xùn)練 330
7.2.1 損失函數(shù)和dropout 330
7.2.2 循環(huán)神經(jīng)網(wǎng)絡(luò)的訓(xùn)練技巧 331
7.3 長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò) 332
7.3.1 長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)的起源 332
7.3.2 長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu) 334
7.3.3 長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)的算法 335
7.4 長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)的訓(xùn)練 340
7.4.1 學(xué)習(xí)率 340
7.4.2 長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)的訓(xùn)練技巧 340
7.5 RNN和LSTM的變體 343
7.5.1 RNN的簡(jiǎn)單變體 343
7.5.2 增強(qiáng)RNN 350
7.5.3 LSTM的變體 357
7.6 遞歸神經(jīng)網(wǎng)絡(luò) 367
7.6.1 遞歸神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu) 367
7.6.2 遞歸神經(jīng)網(wǎng)絡(luò)的前向計(jì)算 368
7.6.3 遞歸神經(jīng)網(wǎng)絡(luò)的反向傳播 369
7.7 循環(huán)神經(jīng)網(wǎng)絡(luò)的應(yīng)用 370
7.7.1 詞向量 370
7.7.2 評(píng)價(jià)指標(biāo) 372
7.7.3 機(jī)器翻譯 373
7.7.4 情感分析 377
7.7.5 對(duì)話模型 380
7.7.6 詩(shī)歌生成 383
7.7.7 圖片描述 384
7.7.8 語(yǔ)音識(shí)別 387
7.7.9 手寫識(shí)別 390
7.8 閱讀材料 392
參考文獻(xiàn) 393
8 注意力機(jī)制和記憶網(wǎng)絡(luò) 397
8.1 注意力機(jī)制的概念 397
8.2 注意力機(jī)制的分類 399
8.2.1 基于項(xiàng)的注意力和基于位置的注意力 400
8.2.2 全局注意力和局部注意力 402
8.2.3 自身注意力機(jī)制 404
8.3 注意力機(jī)制和RNN的結(jié)合 405
8.4 注意力機(jī)制的應(yīng)用 406
8.4.1 目標(biāo)檢測(cè) 406
8.4.2 圖片標(biāo)注 407
8.4.3 機(jī)器翻譯 409
8.4.4 問(wèn)答系統(tǒng) 413
8.5 注意力變體 418
8.5.1 結(jié)構(gòu)化注意力機(jī)制 418
8.5.2 目標(biāo)端注意力 420
8.5.3 單調(diào)對(duì)齊注意力 422
8.5.4 循環(huán)注意力 424
8.5.5 注意力之上的注意力 425
8.6 記憶網(wǎng)絡(luò) 427
8.6.1 記憶網(wǎng)絡(luò)基礎(chǔ)模型 427
8.6.2 分層記憶網(wǎng)絡(luò) 429
8.6.3 端到端記憶網(wǎng)絡(luò) 431
8.6.4 動(dòng)態(tài)記憶網(wǎng)絡(luò) 433
8.6.5 神經(jīng)圖靈機(jī) 434
8.6.6 記憶網(wǎng)絡(luò)的應(yīng)用 438
8.7 閱讀材料 440
參考文獻(xiàn) 441