關(guān)于我們
書單推薦
新書推薦
|
深度強(qiáng)化學(xué)習(xí):基礎(chǔ)、研究與應(yīng)用 讀者對(duì)象:本書是為計(jì)算機(jī)科學(xué)專業(yè)背景、希望從零開(kāi)始學(xué)習(xí)深度強(qiáng)化學(xué)習(xí)并開(kāi)展研究課題和實(shí)踐項(xiàng)目的學(xué)生準(zhǔn)備的。本書也適合沒(méi)有很強(qiáng)的機(jī)器學(xué)習(xí)背景、但是希望快速學(xué)習(xí)深度強(qiáng)化學(xué)習(xí)并將其應(yīng)用到具體產(chǎn)品中的軟件工程師閱讀。
深度強(qiáng)化學(xué)習(xí)結(jié)合深度學(xué)習(xí)與強(qiáng)化學(xué)習(xí)算法各自的優(yōu)勢(shì)解決復(fù)雜的決策任務(wù)。得益于 DeepMind AlphaGo 和 OpenAI Five 成功的案例,深度強(qiáng)化學(xué)習(xí)受到大量的關(guān)注,相關(guān)技術(shù)廣泛應(yīng)用于不同的領(lǐng)域。本書分為三大部分,覆蓋深度強(qiáng)化學(xué)習(xí)的全部?jī)?nèi)容。第一部分介紹深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)的入門知識(shí)、一些非;A(chǔ)的深度強(qiáng)化學(xué)習(xí)算法及其實(shí)現(xiàn)細(xì)節(jié),包括第 1~6 章。第二部分是一些精選的深度強(qiáng)化學(xué)習(xí)研究題目,這些內(nèi)容對(duì)準(zhǔn)備開(kāi)展深度強(qiáng)化學(xué)習(xí)研究的讀者非常有用,包括第 7~12 章。第三部分提供了豐富的應(yīng)用案例,包括 AlphaZero、讓機(jī)器人學(xué)習(xí)跑步等,包括第 13~17 章。本書是為計(jì)算機(jī)科學(xué)專業(yè)背景、希望從零開(kāi)始學(xué)習(xí)深度強(qiáng)化學(xué)習(xí)并開(kāi)展研究課題和實(shí)踐項(xiàng)目的學(xué)生準(zhǔn)備的。本書也適合沒(méi)有很強(qiáng)的機(jī)器學(xué)習(xí)背景、但是希望快速學(xué)習(xí)深度強(qiáng)化學(xué)習(xí)并將其應(yīng)用到具體產(chǎn)品中的軟件工程師閱讀。
董 豪 北京大學(xué)計(jì)算機(jī)系前沿計(jì)算研究中心助理教授、深圳鵬城實(shí)驗(yàn)室雙聘成員。于 2019 年秋獲得英國(guó)帝國(guó)理工學(xué)院博士學(xué)位。研究方向主要涉及計(jì)算機(jī)視覺(jué)和生成模型,目的是降低學(xué)習(xí)智能系統(tǒng)所需要的數(shù)據(jù)。致力于推廣人工智能技術(shù),是深度學(xué)習(xí)開(kāi)源框架 TensorLayer 的創(chuàng)始人,此框架獲得 ACM MM 2017 年度最佳開(kāi)源軟件獎(jiǎng)。在英國(guó)帝國(guó)理工學(xué)院和英國(guó)中央蘭開(kāi)夏大學(xué)獲得一等研究生和一等本科學(xué)位。丁子涵 英國(guó)帝國(guó)理工學(xué)院碩士。獲普林斯頓大學(xué)博士生全額獎(jiǎng)學(xué)金,曾在加拿大 Borealis AI、騰訊 Robotics X 實(shí)驗(yàn)室有過(guò)工作經(jīng)歷。本科就讀于中國(guó)科學(xué)技術(shù)大學(xué),獲物理和計(jì)算機(jī)雙學(xué)位。研究方向主要涉及強(qiáng)化學(xué)習(xí)、機(jī)器人控制、計(jì)算機(jī)視覺(jué)等。在 ICRA、NeurIPS、AAAI、IJCAI、Physical Review 等頂級(jí)期刊與會(huì)議發(fā)表多篇論文,是 TensorLayer-RLzoo、TensorLet 和 Arena 開(kāi)源項(xiàng)目的貢獻(xiàn)者。仉尚航 加州大學(xué)伯克利分校,BAIR 實(shí)驗(yàn)室(Berkeley AI Research Lab)博士后研究員。于 2018年獲得卡內(nèi)基·梅隆大學(xué)博士學(xué)位。研究方向主要涉及深度學(xué)習(xí)、計(jì)算機(jī)視覺(jué)及強(qiáng)化學(xué)習(xí)。在NeurIPS、CVPR、ICCV、TNNLS、AAAI、IJCAI 等人工智能頂級(jí)期刊和會(huì)議發(fā)表多篇論文。目前主要從事 Human-inspired sample-efficient learning 理論與算法研究,包括 low-shot learning、domain adaptation、self learning 等。獲得 AAAI 2021 Best Paper Award, 美國(guó) 2018 Rising Stars in EECS,及Adobe Collaboration Fund、Qualcomm Innovation Fellowship Finalist Award 等獎(jiǎng)勵(lì)。袁 航 英國(guó)牛津大學(xué)計(jì)算機(jī)科學(xué)博士在讀、李嘉誠(chéng)獎(jiǎng)學(xué)金獲得者,主攻人工智能安全和深度學(xué)習(xí)在健康醫(yī)療中的運(yùn)用。曾在歐美各大高校和研究機(jī)構(gòu)研習(xí),如帝國(guó)理工學(xué)院、馬克斯普朗克研究所、瑞士聯(lián)邦理工和卡內(nèi)基·梅隆大學(xué)。張鴻銘 中國(guó)科學(xué)院自動(dòng)化研究所算法工程師。于 2018 年獲得北京大學(xué)碩士研究生學(xué)位。本科就讀于北京師范大學(xué),獲理學(xué)學(xué)士學(xué)位。研究方向涉及統(tǒng)計(jì)機(jī)器學(xué)習(xí)、強(qiáng)化學(xué)習(xí)和啟發(fā)式搜索。張敬卿 英國(guó)帝國(guó)理工學(xué)院計(jì)算機(jī)系博士生,師從帝國(guó)理工學(xué)院數(shù)據(jù)科學(xué)院院長(zhǎng)郭毅可院士。主要研究方向?yàn)樯疃葘W(xué)習(xí)、機(jī)器學(xué)習(xí)、文本挖掘、數(shù)據(jù)挖掘及其應(yīng)用。曾獲得中國(guó)國(guó)家獎(jiǎng)學(xué)金。2016年于清華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系獲得學(xué)士學(xué)位,2017 年于帝國(guó)理工學(xué)院計(jì)算機(jī)系獲得一等研究性碩士學(xué)位。黃彥華 就職于小紅書,負(fù)責(zé)大規(guī)模機(jī)器學(xué)習(xí)及強(qiáng)化學(xué)習(xí)在推薦系統(tǒng)中的應(yīng)用。2016 年在華東師范大學(xué)數(shù)學(xué)系獲得理學(xué)學(xué)士學(xué)位。曾貢獻(xiàn)過(guò)開(kāi)源項(xiàng)目 PyTorch、TensorFlow 和 Ray。余天洋 啟元世界算法工程師,負(fù)責(zé)強(qiáng)化學(xué)習(xí)在博弈場(chǎng)景中的應(yīng)用。碩士畢業(yè)于南昌大學(xué),是TensorLayer-RLzoo 開(kāi)源項(xiàng)目的貢獻(xiàn)者。張華清 谷歌公司算法和機(jī)器學(xué)習(xí)工程師,側(cè)重于多智能體強(qiáng)化學(xué)習(xí)和多層次結(jié)構(gòu)博弈論方向研究,于華中科技大學(xué)獲得學(xué)士學(xué)位,后于 2017 年獲得休斯敦大學(xué)博士學(xué)位。黃銳桐 Borealis AI (加拿大皇家銀行研究院)團(tuán)隊(duì)主管。于 2017 年獲得阿爾伯塔大學(xué)統(tǒng)計(jì)機(jī)器學(xué)習(xí)博士學(xué)位。本科就讀于中國(guó)科學(xué)技術(shù)大學(xué)數(shù)學(xué)系,后于滑鐵盧大學(xué)獲得計(jì)算機(jī)碩士學(xué)位。研究方向主要涉及在線學(xué)習(xí)、優(yōu)化、對(duì)抗學(xué)習(xí)和強(qiáng)化學(xué)習(xí)。廖培元 目前本科就讀于卡內(nèi)基·梅隆大學(xué)計(jì)算機(jī)科學(xué)學(xué)院。研究方向主要涉及表示學(xué)習(xí)和多模態(tài)機(jī)器學(xué)習(xí)。曾貢獻(xiàn)過(guò)開(kāi)源項(xiàng)目 mmdetection 和 PyTorch Cluster,在 Kaggle 數(shù)據(jù)科學(xué)社區(qū)曾獲Competitions Grandmaster 稱號(hào),最高排名全球前 25 位。
基礎(chǔ)部分 1 第 1 章 深度學(xué)習(xí)入門 2
1.1 簡(jiǎn)介 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 1.2 感知器 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 1.3 多層感知器 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 1.4 激活函數(shù) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 1.5 損失函數(shù) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 1.6 優(yōu)化 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 1.6.1 梯度下降和誤差的反向傳播 . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 1.6.2 隨機(jī)梯度下降和自適應(yīng)學(xué)習(xí)率 . . . . . . . . . . . . . . . . . . . . . . . . . . 15 1.6.3 超參數(shù)篩選 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 1.7 正則化 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 1.7.1 過(guò)擬合 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 1.7.2 權(quán)重衰減 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 1.7.3 Dropout . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 1.7.4 批標(biāo)準(zhǔn)化 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 1.7.5 其他緩和過(guò)擬合的方法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 1.8 卷積神經(jīng)網(wǎng)絡(luò) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 1.9 循環(huán)神經(jīng)網(wǎng)絡(luò) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 1.10 深度學(xué)習(xí)的實(shí)現(xiàn)樣例 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 1.10.1 張量和梯度 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 1.10.2 定義模型 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 1.10.3 自定義層 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 1.10.4 多層感知器:MNIST 數(shù)據(jù)集上的圖像分類 . . . . . . . . . . . . . . . . . . . 33 1.10.5 卷積神經(jīng)網(wǎng)絡(luò):CIFAR-10 數(shù)據(jù)集上的圖像分類 . . . . . . . . . . . . . . . . 35 1.10.6 序列到序列模型:聊天機(jī)器人 . . . . . . . . . . . . . . . . . . . . . . . . . . 36 第 2 章 強(qiáng)化學(xué)習(xí)入門 43 2.1 簡(jiǎn)介 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43 2.2 在線預(yù)測(cè)和在線學(xué)習(xí) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 2.2.1 簡(jiǎn)介 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 2.2.2 隨機(jī)多臂賭博機(jī) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 2.2.3 對(duì)抗多臂賭博機(jī) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50 2.2.4 上下文賭博機(jī) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51 2.3 馬爾可夫過(guò)程 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52 2.3.1 簡(jiǎn)介 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52 2.3.2 馬爾可夫獎(jiǎng)勵(lì)過(guò)程 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54 2.3.3 馬爾可夫決策過(guò)程 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57 2.3.4 貝爾曼方程和最優(yōu)性 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61 2.3.5 其他重要概念 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64 2.4 動(dòng)態(tài)規(guī)劃 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64 2.4.1 策略迭代 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65 2.4.2 價(jià)值迭代 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67 2.4.3 其他 DPs:異步 DP、近似 DP 和實(shí)時(shí) DP . . . . . . . . . . . . . . . . . . . 68 2.5 蒙特卡羅 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70 2.5.1 蒙特卡羅預(yù)測(cè) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70 2.5.2 蒙特卡羅控制 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71 2.5.3 增量蒙特卡羅 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72 2.6 時(shí)間差分學(xué)習(xí) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73 2.6.1 時(shí)間差分預(yù)測(cè) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73 2.6.2 Sarsa:在線策略 TD 控制 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77 2.6.3 Q-Learning:離線策略 TD 控制 . . . . . . . . . . . . . . . . . . . . . . . . . 80 2.7 策略優(yōu)化 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80 2.7.1 簡(jiǎn)介 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80 2.7.2 基于價(jià)值的優(yōu)化 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84 2.7.3 基于策略的優(yōu)化 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89 2.7.4 結(jié)合基于策略和基于價(jià)值的方法 . . . . . . . . . . . . . . . . . . . . . . . . 105 第 3 章 強(qiáng)化學(xué)習(xí)算法分類 110 3.1 基于模型的方法和無(wú)模型的方法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111 3.2 基于價(jià)值的方法和基于策略的方法 . . . . . . . . . . . . . . . . . . . . . . . . . . . 113 3.3 蒙特卡羅方法和時(shí)間差分方法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114 3.4 在線策略方法和離線策略方法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115 第 4 章 深度 Q 網(wǎng)絡(luò) 119 4.1 Sarsa 和 Q-Learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121 4.2 為什么使用深度學(xué)習(xí): 價(jià)值函數(shù)逼近 . . . . . . . . . . . . . . . . . . . . . . . . . . . 121 4.3 DQN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123 4.4 Double DQN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124 4.5 Dueling DQN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125 4.6 優(yōu)先經(jīng)驗(yàn)回放 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127 4.7 其他改進(jìn)內(nèi)容:多步學(xué)習(xí)、噪聲網(wǎng)絡(luò)和值分布強(qiáng)化學(xué)習(xí) . . . . . . . . . . . . . . . 128 4.8 DQN 代碼實(shí)例 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131 第 5 章 策略梯度 146 5.1 簡(jiǎn)介 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146 5.2 REINFORCE:初版策略梯度 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147 5.3 Actor-Critic . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149 5.4 生成對(duì)抗網(wǎng)絡(luò)和 Actor-Critic . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 150 5.5 同步優(yōu)勢(shì) Actor-Critic . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152 5.6 異步優(yōu)勢(shì) Actor-Critic . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153 5.7 信賴域策略優(yōu)化 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 154 5.8 近端策略優(yōu)化 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157 5.9 使用 Kronecker 因子化信賴域的 Actor-Critic . . . . . . . . . . . . . . . . . . . . . . 159 5.10 策略梯度代碼例子 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162 5.10.1 相關(guān)的 Gym 環(huán)境 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162 5.10.2 REINFORCE: Atari Pong 和 CartPole-V0 . . . . . . . . . . . . . . . . . . . . . 165 5.10.3 AC: CartPole-V0 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173 5.10.4 A3C: BipedalWalker-v2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 176 5.10.5 TRPO: Pendulum-V0 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 181 5.10.6 PPO: Pendulum-V0 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 192 第 6 章 深度 Q 網(wǎng)絡(luò)和 Actor-Critic 的結(jié)合 200 6.1 簡(jiǎn)介 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 200 6.2 深度確定性策略梯度算法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 201 6.3 孿生延遲 DDPG 算法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 203 6.4 柔性 Actor-Critic 算法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 206 6.4.1 柔性策略迭代 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 206 6.4.2 SAC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 207 6.5 代碼例子 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 209 6.5.1 相關(guān)的 Gym 環(huán)境 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 209 6.5.2 DDPG: Pendulum-V0 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 209 6.5.3 TD3: Pendulum-V0 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 215 6.5.4 SAC: Pendulum-v0 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 225 研究部分 236 第 7 章 深度強(qiáng)化學(xué)習(xí)的挑戰(zhàn) 237 7.1 樣本效率 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 237 7.2 學(xué)習(xí)穩(wěn)定性 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 240 7.3 災(zāi)難性遺忘 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 242 7.4 探索 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 243 7.5 元學(xué)習(xí)和表征學(xué)習(xí) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 245 7.6 多智能體強(qiáng)化學(xué)習(xí) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 246 7.7 模擬到現(xiàn)實(shí) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 247 7.8 大規(guī)模強(qiáng)化學(xué)習(xí) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 251 7.9 其他挑戰(zhàn) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 252 第 8 章 模仿學(xué)習(xí) 258 8.1 簡(jiǎn)介 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 258 8.2 行為克隆方法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 260 8.2.1 行為克隆方法的挑戰(zhàn) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 260 8.2.2 數(shù)據(jù)集聚合 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 261 8.2.3 Variational Dropout . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 262 8.2.4 行為克隆的其他方法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 262 8.3 逆向強(qiáng)化學(xué)習(xí)方法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 263 8.3.1 簡(jiǎn)介 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 263 8.3.2 逆向強(qiáng)化學(xué)習(xí)方法的挑戰(zhàn) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 264 8.3.3 生成對(duì)抗模仿學(xué)習(xí) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 265 8.3.4 生成對(duì)抗網(wǎng)絡(luò)指導(dǎo)性代價(jià)學(xué)習(xí) . . . . . . . . . . . . . . . . . . . . . . . . . . 266 8.3.5 對(duì)抗性逆向強(qiáng)化學(xué)習(xí) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 268 8.4 從觀察量進(jìn)行模仿學(xué)習(xí) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 269 8.4.1 基于模型方法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 269 8.4.2 無(wú)模型方法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 272 8.4.3 從觀察量模仿學(xué)習(xí)的挑戰(zhàn) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 277 8.5 概率性方法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 277 8.6 模仿學(xué)習(xí)作為強(qiáng)化學(xué)習(xí)的初始化 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 279 8.7 強(qiáng)化學(xué)習(xí)中利用示范數(shù)據(jù)的其他方法 . . . . . . . . . . . . . . . . . . . . . . . . . . 280 8.7.1 將示范數(shù)據(jù)導(dǎo)入經(jīng)驗(yàn)回放緩存 . . . . . . . . . . . . . . . . . . . . . . . . . . 280 8.7.2 標(biāo)準(zhǔn)化 Actor-Critic . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 281 8.7.3 用示范數(shù)據(jù)進(jìn)行獎(jiǎng)勵(lì)塑形 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 282 8.8 總結(jié) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 282 第 9 章 集成學(xué)習(xí)與規(guī)劃 289 9.1 簡(jiǎn)介 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 289 9.2 基于模型的方法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 290 9.3 集成模式架構(gòu) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 292 9.4 基于模擬的搜索 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 293 9.4.1 樸素蒙特卡羅搜索 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 294 9.4.2 蒙特卡羅樹(shù)搜索 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 294 9.4.3 時(shí)間差分搜索 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 295 第 10 章 分層強(qiáng)化學(xué)習(xí) 298 10.1 簡(jiǎn)介 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 298 10.2 選項(xiàng)框架 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 299 10.2.1 戰(zhàn)略專注作家 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 300 10.2.2 選項(xiàng)-批判者結(jié)構(gòu) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 303 10.3 封建制強(qiáng)化學(xué)習(xí) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 305 10.3.1 封建制網(wǎng)絡(luò) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 305 10.3.2 離線策略修正 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 307 10.4 其他工作 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 309 第 11 章 多智能體強(qiáng)化學(xué)習(xí) 315 11.1 簡(jiǎn)介 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 315 11.2 優(yōu)化和均衡 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 316 11.2.1 納什均衡 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 317 11.2.2 關(guān)聯(lián)性均衡 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 318 11.2.3 斯塔克爾伯格博弈 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 320 11.3 競(jìng)爭(zhēng)與合作 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 321 11.3.1 合作 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 321 11.3.2 零和博弈 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 321 11.3.3 同時(shí)決策下的競(jìng)爭(zhēng) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 322 11.3.4 順序決策下的競(jìng)爭(zhēng) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 323 11.4 博弈分析架構(gòu) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 324 第 12 章 并行計(jì)算 326 12.1 簡(jiǎn)介 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 326 12.2 同步和異步 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 327 12.3 并行計(jì)算網(wǎng)絡(luò) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 329 12.4 分布式強(qiáng)化學(xué)習(xí)算法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 330 12.4.1 異步優(yōu)勢(shì) Actor-Critic . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 330 12.4.2 GPU/CPU 混合式異步優(yōu)勢(shì) Actor-Critic . . . . . . . . . . . . . . . . . . . . . 332 12.4.3 分布式近端策略優(yōu)化 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 333 12.4.4 重要性加權(quán)的行動(dòng)者-學(xué)習(xí)者結(jié)構(gòu)和可擴(kuò)展高效深度強(qiáng)化學(xué)習(xí) . . . . . . . . 336 12.4.5 Ape-X、回溯-行動(dòng)者和分布式深度循環(huán)回放 Q 網(wǎng)絡(luò) . . . . . . . . . . . . . 338 12.4.6 Gorila . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 340 12.5 分布式計(jì)算架構(gòu) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 340 應(yīng)用部分 343 第 13 章 Learning to Run 344 13.1 NeurIPS 2017 挑戰(zhàn):Learning to Run . . . . . . . . . . . . . . . . . . . . . . . . . . . 344 13.1.1 環(huán)境介紹 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 344 13.1.2 安裝 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 346 13.2 訓(xùn)練智能體 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 347 13.2.1 并行訓(xùn)練 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 348 13.2.2 小技巧 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 351 13.2.3 學(xué)習(xí)結(jié)果 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 352 第 14 章 魯棒的圖像增強(qiáng) 354 14.1 圖像增強(qiáng) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 354 14.2 用于魯棒處理的強(qiáng)化學(xué)習(xí) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 356 第 15 章 AlphaZero 366 15.1 簡(jiǎn)介 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 366 15.2 組合博弈 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 367 15.3 蒙特卡羅樹(shù)搜索 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 370 15.4 AlphaZero:棋類游戲的通用算法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 376 第 16 章 模擬環(huán)境中機(jī)器人學(xué)習(xí) 388 16.1 機(jī)器人模擬 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 389 16.2 強(qiáng)化學(xué)習(xí)用于機(jī)器人任務(wù) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 405 16.2.1 并行訓(xùn)練 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 407 16.2.2 學(xué)習(xí)效果 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 407 16.2.3 域隨機(jī)化 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 408 16.2.4 機(jī)器人學(xué)習(xí)基準(zhǔn) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 409 16.2.5 其他模擬器 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 409 第 17 章 Arena:多智能體強(qiáng)化學(xué)習(xí)平臺(tái) 412 17.1 安裝 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 413 17.2 用 Arena 開(kāi)發(fā)游戲 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 413 17.2.1 簡(jiǎn)單的單玩家游戲 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 414 17.2.2 簡(jiǎn)單的使用獎(jiǎng)勵(lì)機(jī)制的雙玩家游戲 . . . . . . . . . . . . . . . . . . . . . . . 416 17.2.3 高級(jí)設(shè)置 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 420 17.2.4 導(dǎo)出二進(jìn)制游戲 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 424 17.3 MARL 訓(xùn)練 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 427 17.3.1 設(shè)置 X-Server . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 427 17.3.2 進(jìn)行訓(xùn)練 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 429 17.3.3 可視化 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 431 17.3.4 致謝 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 431 第 18 章 深度強(qiáng)化學(xué)習(xí)應(yīng)用實(shí)踐技巧 433 18.1 概覽:如何應(yīng)用深度強(qiáng)化學(xué)習(xí) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 433 18.2 實(shí)現(xiàn)階段 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 434 18.3 訓(xùn)練和調(diào)試階段 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 440 總結(jié)部分 445 附錄 A 算法總結(jié)表 446 附錄 B 算法速查表 451 B.1 深度學(xué)習(xí) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 451 B.1.1 隨機(jī)梯度下降 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 451 B.1.2 Adam 優(yōu)化器 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 452 B.2 強(qiáng)化學(xué)習(xí) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 452 B.2.1 賭博機(jī) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 452 B.2.2 動(dòng)態(tài)規(guī)劃 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 453 B.2.3 蒙特卡羅 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 454 B.3 深度強(qiáng)化學(xué)習(xí) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 458 B.4 高等深度強(qiáng)化學(xué)習(xí) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 467 B.4.1 模仿學(xué)習(xí) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 467 B.4.2 基于模型的強(qiáng)化學(xué)習(xí) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 468 B.4.3 分層強(qiáng)化學(xué)習(xí) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 470 B.4.4 多智能體強(qiáng)化學(xué)習(xí) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 471 B.4.5 并行計(jì)算 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 472 附錄 C 中英文對(duì)照表 476
你還可能感興趣
我要評(píng)論
|