深度強(qiáng)化學(xué)習(xí):學(xué)術(shù)前沿與實(shí)戰(zhàn)應(yīng)用
定 價(jià):99 元
叢書名:智能科學(xué)與技術(shù)叢書
- 作者:劉馳 王占健 馬曉鑫 等
- 出版時(shí)間:2020/3/1
- ISBN:9787111646648
- 出 版 社:機(jī)械工業(yè)出版社
- 中圖法分類:TP181
- 頁碼:0
- 紙張:
- 版次:
- 開本:16開
著重介紹深度強(qiáng)化學(xué)習(xí)的學(xué)術(shù)界前沿進(jìn)展與核心代碼分析的書籍。對(duì)深度強(qiáng)化學(xué)習(xí)方面的重要學(xué)術(shù)進(jìn)展按照單智能體深度強(qiáng)化學(xué)習(xí)、多智能體深度強(qiáng)化學(xué)習(xí)、多任務(wù)深度強(qiáng)化學(xué)習(xí)三個(gè)方向梳理,介紹其核心算法,以及算法的代碼實(shí)現(xiàn)示例。
前言
致謝
數(shù)學(xué)符號(hào)
第一篇 深度強(qiáng)化學(xué)習(xí)
第1章 深度強(qiáng)化學(xué)習(xí)基礎(chǔ) 2
1.1 強(qiáng)化學(xué)習(xí) 2
1.1.1 強(qiáng)化學(xué)習(xí)的發(fā)展歷史 2
1.1.2 強(qiáng)化學(xué)習(xí)簡介 4
1.1.3 深度強(qiáng)化學(xué)習(xí)簡介 6
1.2 馬爾可夫?qū)傩院蜎Q策過程 9
1.2.1 馬爾可夫?qū)傩? 9
1.2.2 馬爾可夫決策過程 11
1.3 強(qiáng)化學(xué)習(xí)核心概念 12
1.3.1 值函數(shù) 12
1.3.2 動(dòng)態(tài)規(guī)劃 14
1.3.3 時(shí)間(序)差分 15
1.3.4 策略梯度 16
1.3.5 actor-critic方法 17
1.4 Q-learning 18
1.4.1 Q-learning簡介 18
1.4.2 算法 19
1.4.3 相關(guān)變量及影響 20
1.4.4 實(shí)現(xiàn)方法 21
第2章 深度強(qiáng)化學(xué)習(xí)算法 22
2.1 基于值的深度強(qiáng)化學(xué)習(xí)算法 22
2.1.1 深度Q網(wǎng)絡(luò) 22
2.1.2 深度雙Q網(wǎng)絡(luò) 27
2.1.3 競爭網(wǎng)絡(luò)架構(gòu) 31
2.1.4 平均值DQN 33
2.1.5 多DQN變種結(jié)合體:Rainbow 37
2.1.6 基于動(dòng)作排除的DQN 42
2.2 基于策略的深度強(qiáng)化學(xué)習(xí)算法 46
2.2.1 循環(huán)確定性策略梯度 46
2.2.2 深度確定性策略梯度 55
2.2.3 信賴域策略優(yōu)化 62
2.2.4 近端策略優(yōu)化 68
2.3 基于模型的深度強(qiáng)化學(xué)習(xí)算法 73
2.3.1 基于模型加速的連續(xù)深度Q-learning 73
2.3.2 范例模型探索 80
2.3.3 基于模型集成的信賴域策略優(yōu)化 88
2.3.4 時(shí)間差分模型 95
2.4 基于分層的深度強(qiáng)化學(xué)習(xí)算法 102
2.4.1 分層深度強(qiáng)化學(xué)習(xí) 102
2.4.2 基于封建網(wǎng)絡(luò)的分層強(qiáng)化學(xué)習(xí) 109
2.4.3 基于隨機(jī)神經(jīng)網(wǎng)絡(luò)的分層強(qiáng)化學(xué)習(xí) 116
第3章 分布式深度強(qiáng)化學(xué)習(xí) 123
3.1 分布式系統(tǒng) 123
3.1.1 分布式系統(tǒng)簡介 123
3.1.2 分布式系統(tǒng)的發(fā)展歷史 124
3.1.3 架構(gòu)演進(jìn) 125
3.1.4 主流分布式系統(tǒng)框架 128
3.2 分布式深度強(qiáng)化學(xué)習(xí)算法 129
3.2.1 分布式近端策略優(yōu)化 129
3.2.2 分布式深度確定性策略梯度 138
3.3 分布式深度強(qiáng)化學(xué)習(xí)框架 145
3.3.1 重要性加權(quán)Actor-Learner架構(gòu) 145
3.3.2 分布式優(yōu)先經(jīng)驗(yàn)復(fù)用池 153
第二篇 多智能體深度強(qiáng)化學(xué)習(xí)
第4章 多智能體深度強(qiáng)化學(xué)習(xí)基礎(chǔ) 162
4.1 多智能體強(qiáng)化學(xué)習(xí) 162
4.1.1 多智能體強(qiáng)化學(xué)習(xí)發(fā)展歷史 162
4.1.2 多智能體強(qiáng)化學(xué)習(xí)簡介 164
4.1.3 優(yōu)勢和挑戰(zhàn) 166
4.2 部分可見馬爾可夫決策過程 166
4.2.1 POMDP模型 166
4.2.2 POMDP相關(guān)研究 169
4.2.3 POMDP應(yīng)用領(lǐng)域 170
第5章 多智能體深度強(qiáng)化學(xué)習(xí)算法 171
5.1 基于值函數(shù)的多智能體深度強(qiáng)化學(xué)習(xí) 171
5.1.1 基于DQN的多智能體網(wǎng)絡(luò) 171
5.1.2 增強(qiáng)智能體間學(xué)習(xí) 174
5.1.3 協(xié)同多智能體學(xué)習(xí)的價(jià)值分解網(wǎng)絡(luò) 178
5.1.4 多智能體深度強(qiáng)化學(xué)習(xí)的穩(wěn)定經(jīng)驗(yàn)復(fù)用池 182
5.1.5 單調(diào)值函數(shù)分解 187
5.1.6 深度強(qiáng)化學(xué)習(xí)中的對(duì)立智能體建模 190
5.1.7 平均場多智能體強(qiáng)化學(xué)習(xí) 193
5.2 基于策略的多智能體深度強(qiáng)化學(xué)習(xí) 197
5.2.1 基于自身策略的其他智能體行為預(yù)測 197
5.2.2 雙重平均方案 201
5.2.3 多智能體深度強(qiáng)化學(xué)習(xí)的統(tǒng)一博弈論方法 208
5.3 基于AC框架的多智能體深度強(qiáng)化學(xué)習(xí) 212
5.3.1 多智能體深度確定性策略梯度 212
5.3.2 多智能體集中規(guī)劃的價(jià)值函數(shù)策略梯度 220
5.3.3 多智能體系統(tǒng)的策略表示學(xué)習(xí) 227
5.3.4 部分可觀察環(huán)境下的多智能體策略優(yōu)化 231
5.3.5 基于聯(lián)網(wǎng)智能體的完全去中心化MARL 236
第三篇 多任務(wù)深度強(qiáng)化學(xué)習(xí)
第6章 多任務(wù)深度強(qiáng)化學(xué)習(xí)基礎(chǔ) 244
6.1 簡介 244
6.1.1 理論概述 244
6.1.2 面臨的挑戰(zhàn) 247
6.2 策略蒸餾法 248
第7章 多任務(wù)深度強(qiáng)化學(xué)習(xí)算法 253
7.1 無監(jiān)督強(qiáng)化與輔助學(xué)習(xí) 253
7.1.1 算法介紹 253
7.1.2 算法分析 255
7.1.3 使用場景與優(yōu)勢分析 261
7.2 使用漸進(jìn)式神經(jīng)網(wǎng)絡(luò)解決任務(wù)的復(fù)雜序列 262
7.2.1 算法介紹 262
7.2.2 算法分析 262
7.2.3 使用場景與優(yōu)勢分析 266
7.3 基于單智能體的多任務(wù)共享模型 267
7.3.1 算法介紹 267
7.3.2 算法分析 268
7.3.3 使用場景與優(yōu)勢分析 272
7.4 使用PopArt歸一化多任務(wù)更新幅度 273
7.4.1 算法介紹 273
7.4.2 算法分析 274
7.4.3 使用場景與優(yōu)勢分析 276
第四篇 深度強(qiáng)化學(xué)習(xí)的應(yīng)用
第8章 游戲 278
8.1 Gym Retro游戲平臺(tái) 278
8.1.1 平臺(tái)簡介 278
8.1.2 安裝Gym Retro平臺(tái) 281
8.1.3 安裝Retro UI 282
8.1.4 Gym Retro主要函數(shù)說明 283
8.2 相關(guān)應(yīng)用 285
8.2.1 Pong游戲 285
8.2.2 CartPole 291
8.2.3 Flappy Bird 298
8.2.4 Gradius 302
第9章 機(jī)器人控制 312
9.1 機(jī)器人導(dǎo)航 312
9.1.1 無地圖導(dǎo)航 312
9.1.2 社會(huì)感知機(jī)器人導(dǎo)航 316
9.2 路徑規(guī)劃 321
9.3 機(jī)器人視覺 324
第10章 計(jì)算機(jī)視覺 327
10.1 圖像 327
10.1.1 圖像字幕 327
10.1.2 圖像恢復(fù) 332
10.2 視頻 337
10.2.1 視頻字幕 337
10.2.2 視頻快進(jìn) 345
10.2.3 視覺跟蹤 348
第11章 自然語言處理 354
11.1 與知識(shí)庫交互的多輪對(duì)話智能體 354
11.1.1 概率KB查找 355
11.1.2 端到端KB-InfoBot 356
11.1.3 總結(jié) 359
11.2 魯棒遠(yuǎn)程監(jiān)督關(guān)系提取 359
11.2.1 問題表述 360
11.2.2 使用基于策略的智能體重新分配訓(xùn)練數(shù)據(jù)集 363
11.2.3 總結(jié) 363
11.3 非成對(duì)情感–情感翻譯 363
11.3.1 問題表述 363
11.3.2 訓(xùn)練算法 366
11.3.3 總結(jié) 367
縮寫參照表 368
常用詞中英文對(duì)照 371
參考文獻(xiàn) 374