關(guān)于我們
書單推薦
新書推薦
|
強化學習(第2版) 《強化學習(第2版)》作為強化學習思想的深度解剖之作,被業(yè)內(nèi)公認為是一本強化學習基礎(chǔ)理論的經(jīng)典著作。它從強化學習的基本思想出發(fā),深入淺出又嚴謹細致地介紹了馬爾可夫決策過程、蒙特卡洛方法、時序差分方法、同軌離軌策略等強化學習的基本概念和方法,并以大量的實例幫助讀者理解強化學習的問題建模過程以及核心的算法細節(jié)。 《強化學習(第2版)》適合所有對強化學習感興趣的讀者閱讀、收藏。 《強化學習(第2版)》被業(yè)界公認為任何對人工智能領(lǐng)域感興趣的人員的必讀書。 《強化學習(第2版)》是被稱為強化學習教父的Richard Sutton在強化學習領(lǐng)域的開創(chuàng)性、奠基性著作。自1998年第1版出版以來,一直是強化學習領(lǐng)域的經(jīng)典導論性教材,培育了好幾代強化學習領(lǐng)域的研究人員。 在第2版中,隨著強化學習近來的蓬勃發(fā)展,作者補充了很多新的內(nèi)容:人工神經(jīng)網(wǎng)絡(luò)、蒙特卡洛樹搜索、平均收益*化……涵蓋了當今*關(guān)鍵的核心算法和理論。不僅如此,作者還以真實世界的應(yīng)用為例闡述了這些內(nèi)容。 本書第1版出版的20年以來,在機器學習(包括強化學習) 前沿技術(shù)發(fā)展的推動下,人工智能取得了重大進展。這些進展不僅歸功于這些年迅猛發(fā)展起來的計算機強大的計算能力,也受益于許多理論和算法上的創(chuàng)新。面對這些進展,我們早有對1998年第1版書進行更新再版的打算,但直到2012年才開始真正著手編纂。第2版的目標與第1版一致:為強化學習的核心概念與算法提供清晰簡明的解釋,以供所有相關(guān)學科的讀者學習。這一版仍然是一本概要介紹性的讀物,仍然關(guān)注最核心的在線學習算法,同時增加了一些近年來日趨重要的話題,并拓展了部分內(nèi)容,給出了更新的理解。強化學習領(lǐng)域可以延伸出很多不同的方向,但我們并不想包羅萬象,在此為可能出現(xiàn)的些許遺漏表示歉意。
第2版記號變化 和第1版一樣,我們沒有以最嚴謹?shù)男问交姆绞絹矶x強化學習,也沒有采用特別抽象的術(shù)語表達,但是為了大家能更深入地理解,有些話題仍然需要用數(shù)學來解釋。無數(shù)學需求的讀者可以選擇跳過灰色框中的數(shù)學原理部分。在教學過程中,我們發(fā)現(xiàn)一些新的記號可以消除一些共同的疑惑點,因此本書的部分記號和上一版相比略有差異。首先我們對隨機變量進行了區(qū)分,以大寫字母表示變量本身,小寫字母表示對應(yīng)的實例。比如時刻t的狀態(tài)、動作和收益被表示為St、At和Rt,而它們可能的取值被表示為s、a和r。與之相伴隨,我們用小寫字母的形式(例如v)來表示價值函數(shù),用大寫字母表示其表格型的估計值,比如Qt(s,a)。近似價值函數(shù)是具有隨機參數(shù)的確定性函數(shù),因此用小寫字母表示,比如v(s,wt)v(s)。向量用粗體的小寫字母表示(包括隨機變量),比如權(quán)值向量wt(先前用t表示)、特征向量xt(先前用?t表示)。大寫粗體用以表示矩陣。在第1版中我們使用了特殊記號Paass來表示轉(zhuǎn)移概率和期望收益。但這種記號并不能完整地表示出收益的動態(tài)性,只表示了期望值,因此只適用于動態(tài)規(guī)劃而不適用于強化學習。另一個缺點是上下標的過度使用。因此,在這一版中我們明確采用p(s,r|s,a)的記 號來表示給定當前狀態(tài)s和動作a后,下一時刻的狀態(tài)s和收r的聯(lián)合概率分布。所有的記號變化都收錄在稍后的符號列表中。
第2版內(nèi)容結(jié)構(gòu) 第2版在原先的基礎(chǔ)上進行了許多拓展,整體結(jié)構(gòu)也有所變化。第1章是導論性的介紹,其后分為三個部分。第I部分(第28 章)會盡可能多地用表格型的案例講解強化學習,主要包括針對表格型案例的學習和規(guī)劃算法,以及它們在n步法和Dyna中的統(tǒng)一表達。這部分介紹的許多算法是第2版的新增內(nèi)容,包括UCB、期望Sarsa、雙重學習、樹回溯、Q()、RTDP和MCTS。從介紹表格型案例開始,可以在最簡單的情況下理解算法的核心思想。本書的第II部分(第913章)致力于將這些思想從表格型的情況擴展到函數(shù)逼近,包含人工神經(jīng)網(wǎng)絡(luò)、傅立葉變換基礎(chǔ)、LSTD、核方法、梯度TD和強調(diào)TD方法、平均收益方法、真實的在線TD(λ)和策略梯度方法等新內(nèi)容。第2版大幅拓展了對離軌策略的介紹,首先是第57章講解表格型的案例,之后在第11章和第12章講解函數(shù)逼近法。另一個變化是,這一版將n步自舉法(在第7章中詳細闡述)中的前向視圖思想與資格跡(在第12章中單獨闡述)中的后向視圖思想分開詳細講解。本書的第III部分加入了大量闡述強化學習與心理學(第14章)、神經(jīng)科學(第15章)聯(lián)系的新章節(jié),更新了針對多種案例,包括Atari游戲、Watson的投注策略和圍棋人工智能AlphaGo、AlphaGo Zero (第16章)的研究章節(jié)。盡管如此,本書涵蓋的內(nèi)容仍然只是該領(lǐng)域的一小部分,只反映了我們長期以來對低成本無模型方法的興趣,這些方法可以很好地適應(yīng)大規(guī)模的應(yīng)用。最后一章包括了對強化學習未來的社會影響的討論。無論好壞,第2版的篇幅達到了第1版的兩倍。 本書旨在作為一到兩學期強化學習課程的初級教材。一個學期的課程可以著重對前10章進行討論,掌握核心思想,根據(jù)需要再將其他章節(jié),或者其他書籍的某些章節(jié),比如Bertsekas和Tsitsiklis(1996)、Wiering和van Otterlo(2012),以及Szepesvári(2010)或其他文獻作為輔助材料。根據(jù)學生的背景,在線有監(jiān)督學習的一些額外材料可能會對學習這門課有所幫助。比如選項的概念和模型(Sutton、Precup和Singh,1999)就是一個很好的補充。兩學期的課程可以使用所有章節(jié)內(nèi)容及補充材料。本書還可以作為機器 學習、人工智能或神經(jīng)網(wǎng)絡(luò)等課程的一部分。這種情況只需要講述部分內(nèi)容,我們推薦對第1章進行簡要概述,然后學習第2章到2.4節(jié)和第3章,隨后根據(jù)時間和興趣選擇其余章節(jié)。第6章的內(nèi)容對于本書和相關(guān)課程來說是最重要的。關(guān)于機器學習或神經(jīng)網(wǎng)絡(luò)的課程應(yīng)該使用第9章和第10章的內(nèi)容,而關(guān)于人工智能或規(guī)劃算法的課程應(yīng)該使用第8章的內(nèi)容。在整本書中,相對比較難且對于其他課程不那么重要的章節(jié)和部分已用∗注明。這些部分在第一次閱讀時可以跳過,這不會影響后續(xù)閱讀。練習中一些進階的、對理解基礎(chǔ)概念不那么重要的問題也已經(jīng)用∗標識。 大多數(shù)章節(jié)最后會出現(xiàn)題為參考文獻和歷史備注的部分,在這部分中,我們針對本章中一些值得深入探究的概念和觀點提供了進一步閱讀和研究的材料,并描述了相關(guān)的歷史背景。盡管我們試圖使這些部分內(nèi)容具有權(quán)威性和完整性,但也不免會忽略一些重要的前期工作。為此,我們再次表示歉意,也歡迎讀者提出更正和擴展。
本書寫作背景 和第1版一樣,我們用本書的這一版紀念A.Harry Klopf。是Harry把本書的作者們介紹給彼此,也是他關(guān)于大腦和人工智能的想法,使我們踏上對強化學習研究的漫長征程。Harry是俄亥俄州賴特-帕特森空軍基地空軍科學研究所(AFOSR)航空電子管理局的一位高級研究員,他受過神經(jīng)生理學的訓練,并一直對機器智能很感興趣。在解釋自然智能、機器智能基礎(chǔ)機理的問題上,他并不滿意當時的人們對平衡態(tài)搜索(equilibrium-seeking)過程(包括內(nèi)部穩(wěn)態(tài)自調(diào)整過程和基于錯誤糾正的模式分類方法)的廣泛重視。他指出,嘗試最大化某種準則(無論該準則是什么)的系統(tǒng)與搜索平衡態(tài)的系統(tǒng)在本質(zhì)上有所不同,而具有最大化準則的系統(tǒng)才是理解自然智能的重要方向,是構(gòu)建人工智能的關(guān)鍵。Harry從AFOSR申請了項目資助,用于評估這些思想以及相關(guān)思想的科學價值。該項目于20世紀70年代末在馬薩諸塞州阿默斯特大學(麻省大學阿默斯特分校)進行,最初由Michael Arbib、William Kilmer和Nico Spinelli指導,他們是麻省大學阿默斯特分校計算機與信息科學系的教授,系統(tǒng)神經(jīng)科學控制論中心的創(chuàng)始成員。這是一支十分有遠見的團隊,專注于神經(jīng)科學和人工智能交叉方向。 Barto,一位來自密歇根大學的博士,擔任該項目的博士后研究員。與此同時,在斯坦福大學攻讀計算機科學和心理學的本科生Sutton,就經(jīng)典條件反射中的刺激時機的作用這一話題和Harry產(chǎn)生了共同興趣。Harry向麻省大學提出建議,認為Sutton可以成為該項目的一名重要補充人員。因此,Sutton成為了麻省大學的研究生,在成為副教授的Barto的指導下攻讀博士學位。 本書中對強化學習的研究都出自Harry推動的這一項目,且受其想法啟發(fā)而來。此外,也是通過Harry,作者們才得以聚到一起進行長期愉快的合作。因此,我們將本書獻給Harry,以紀念他對于強化學習領(lǐng)域和我們合作的重要貢獻。我們也感謝Arbib、Kilmer和Spinelli教授為我們提供探索這些想法的機會。最后,感謝AFOSR在研究早期給予我們的慷慨支持,并感謝NSF(美國國家科學基金會)在接下來的幾年中給予的慷慨支持。
致謝 我們還要感謝在第2版中為我們提供靈感和幫助的許多人,同樣我們也要對第1版中致謝過的所有人再次表示深深的感謝,如果不是他們對第1版的貢獻,這一版也不會面世。在這個長長的致謝列表中,我們增加了許多特別為第2版作出貢獻的人。多年來在使用該教材的教授的課堂上,我們的學生以各種各樣的方式作出貢獻:指正錯誤,提供修改方案,也包括對我們沒解釋清楚的地方表達困惑。我們還要特別感謝Martha Steenstrup閱讀并提供詳細的意見。如果沒有這些心理學和神經(jīng)科學領(lǐng)域?qū)<业膸椭,相關(guān)章節(jié)將無法完成。感謝John Moore多年來在動物學習實驗、理論和神經(jīng)科學方面的耐心指導,John仔細審閱了第14章和第15章的多版草稿。感謝Matt Botvinick、Nathaniel Daw、Peter Dayan和Yael Niv對這些章節(jié)的建議,對我們閱讀大量文獻給予的重要指導,以及對早期草稿中錯誤的斧正。當然,這些章節(jié)一定還存在某些紕漏。我們感謝Phil Thomas幫助我們尋找非心理學、非神經(jīng)科學研究的人士來閱讀這些章節(jié),感謝Peter Sterling幫助我們改進注釋部分。感謝Jim Houk為我們介紹基底核神經(jīng)中樞進行信息處理的過程,并提醒我們注意其他一些相關(guān)的神經(jīng)科學的內(nèi)容。在案例學習的章節(jié),José Martínez、Terry Sejnowski、David Silver、Gerry Tesauro、Georgios Theocharous和Phil Thomas幫助我們了解他們的強化學習應(yīng)用程序的細節(jié),并對這些章節(jié)的草稿提出了十分有用的意見。特別感謝David Silver幫助我們更好地理解蒙特卡洛樹搜索和DeepMind的圍棋程序(Go-playing program)。感謝George Konidaris在傅立葉基的相關(guān)章節(jié)提供的幫助,感謝Emilio Cartoni、Thomas Cederborg、Stefan Dernbach、Clemens Rosenbaum、Patrick Taylor、Thomas Colin和Pierre-Luc Bacon在多方面對我們提供的幫助。 Sutton還要感謝阿爾伯塔大學強化學習和人工智能實驗室的成員對第2版的貢獻,特別是Rupam Mahmood對于第5章中關(guān)于離軌策略蒙特卡洛方法的重要貢獻,Hamid Maei在第11章中提出的關(guān)于離軌策略學習的觀點,Eric Graves在第13章中進行的實驗,Shangtong Zhang復現(xiàn)并驗證了幾乎所有的實驗結(jié)果,Kris De Asis在第7章和第12章中提供的新技術(shù)內(nèi)容,以及Harm van Seijen提出的n步方法與資格跡分離的觀點,(和Hado van Hasselt一起)和第12章中涉及的資格跡前向、后向等價性的觀點。Sutton 也非常感謝阿爾伯塔省政府和加拿大國家科學與工程研究委員會在整個第2版的構(gòu)思和編寫期間給予的支持和自由。特別感謝Randy Goebel在阿爾伯塔省創(chuàng)建的包容支持、具有遠見的基礎(chǔ)研究環(huán)境。同時,也還要感謝在撰寫本書的最后6個月中DeepMind給予的支持。 最后,我們要感謝許多閱讀網(wǎng)絡(luò)發(fā)布的第2版的細心讀者們,他們發(fā)現(xiàn)了許多我們忽視的錯誤,提醒我們注意可能出現(xiàn)的混淆點。 Richard Sutton(理查德薩頓) 埃德蒙頓 DeepMind 公司的杰出科學家,阿爾伯塔大學計算科學系教授。他于2003年加入阿爾伯塔大學,2017年加入DeepMind。之前,曾在美國電話電報公司(AT&T)和通用電話電子公司(GTE)實驗室工作,在馬薩諸塞大學做學術(shù)研究。 1978年獲得斯坦福大學心理學學士學位,1984年獲得馬薩諸塞大學計算機科學博士學位,加拿大皇家學會院士和人工智能促進會的會士。 主要研究興趣是在決策者與環(huán)境相互作用時所面臨的學習問題,他認為這是智能的核心問題。其他研究興趣有:動物學習心理學、聯(lián)結(jié)主義網(wǎng)絡(luò),以及能夠不斷學習和改進環(huán)境表征和環(huán)境模型的系統(tǒng)。 他的科學出版物被引用超過7萬次。 他也是一名自由主義者,國際象棋選手和癌癥幸存者。 Andrew Barto (安德魯巴圖) 馬薩諸塞大學阿默斯特分校信息與計算機科學學院名譽教授。1970年獲得密歇根大學數(shù)學專業(yè)的杰出學士學位,并于1975年獲該校計算機科學專業(yè)的博士學位。1977年他加入馬薩諸塞州阿默斯特大學計算機科學系。在2012年退休之前,他帶領(lǐng)了馬薩諸塞大學的自主學習實驗室,該實驗室培養(yǎng)了許多著名的機器學習研究者。 目前擔任Neural Computation (《神經(jīng)計算》)期刊的副主編,Journal of Machine Learning Research (《機器學習研究》)期刊的顧問委員會成員,以及Adaptive Behavior (《自適應(yīng)行為》)期刊的編委員會成員。 他是美國科學促進會的會員,IEEE(國際電子電氣工程師協(xié)會)的終身會士(Life Fellow),也是神經(jīng)科學學會的成員。 2004年,因強化學習領(lǐng)域的貢獻榮獲IEEE神經(jīng)網(wǎng)絡(luò)學會先鋒獎,并因在強化學習理論和應(yīng)用方面的開創(chuàng)、富有影響力的研究獲得 IJCAI-17卓越研究獎;2019年獲得馬薩諸塞大學神經(jīng)科學終身成就獎。 他在各類期刊、會議和研討會上發(fā)表了100多篇論文,參與撰寫多部圖書的相關(guān)章節(jié)。 譯者簡介 俞凱 上海交通大學計算科學與工程系教授,思必馳公司創(chuàng)始人、首席科學家。清華大學自動化系本科、碩士,劍橋大學工程系博士。青年千人,國家自然科學基金委優(yōu)青,上海市東方學者特聘教授。IEEE 高級會員,現(xiàn)任 IEEE Speech and Language Processing Technical Committee 委員,中國人工智能產(chǎn)業(yè)發(fā)展聯(lián)盟學術(shù)和知識產(chǎn)權(quán)組組長,中國計算機學會語音對話及聽覺專業(yè)組副主任。 長期從事交互式人工智能,尤其是智能語音及自然語言處理的研究和產(chǎn)業(yè)化工作。發(fā)表國際期刊和會議論文 150 余篇,獲得Computer Speech and Language, Speech Communication 等多個國際期刊及InterSpeech等國際會議的最優(yōu)論文獎,所搭建的工程系統(tǒng)曾獲美國國家標準局語音識別評測冠軍,對話系統(tǒng)國際研究挑戰(zhàn)賽冠軍等。 獲評2014吳文俊人工智能科學技術(shù)獎進步獎,2016科學中國人年度人物,2018中國計算機學會青竹獎。 第1章 導論·· · · · 1 1.1 強化學習·· · · · 1 1.2 示例·· · · · 4 1.3 強化學習要素·· · · · 5 1.4 局限性與適用范圍·· · · · 7 1.5 擴展實例:井字棋 · ··· · · ·· 8 1.6 本章小結(jié)·· · · · 12 1.7 強化學習的早期歷史·· · · · 13 第I部分 表格型求解方法·· · · · 23 第2章 多臂賭博機·· · · · 25 2.1 一個 k 臂賭博機問題·· · · · 25 2.2 動作-價值方法·· · · · · 27 2.3 10 臂測試平臺·· · · · 28 2.4 增量式實現(xiàn)·· · · · 30 2.5 跟蹤一個非平穩(wěn)問題··· · · · 32 2.6 樂觀初始值·· · · · 34 2.7 基于置信度上界的動作選擇 ··· · · · 35 2.8 梯度賭博機算法·· · · · 37 2.9 關(guān)聯(lián)搜索 (上下文相關(guān)的賭博機) ·· · · · · 40 2.10 本章小結(jié)·· · · · 41 第3章 有限馬爾可夫決策過程·· 45 3.1 智能體-環(huán)境交互接口 ·· · · · 45 3.2 目標和收益 ·· · · · · · · · · · 51 3.3 回報和分幕· · · · · · 52 3.4 分幕式和持續(xù)性任務(wù)的統(tǒng)一表示法 ·· ·· 54 3.5 策略和價值函數(shù) ·· · · · · 55 3.6 最優(yōu)策略和最優(yōu)價值函數(shù) · ·· · 60 3.7 最優(yōu)性和近似算法 · · · · ·· · · · · · · · 65 3.8 本章小結(jié)· · ·· · 66 第4章 動態(tài)規(guī)劃 · ·· · 71 4.1 策略評估 (預測) · ·· · · 72 4.2 策略改進· ·· · 75 4.3 策略迭代· ·· · 78 4.4 價值迭代· ·· · 80 4.5 異步動態(tài)規(guī)劃 ·· · 83 4.6 廣義策略迭代 ·· 84 4.7 動態(tài)規(guī)劃的效率· · · · 85 4.8 本章小結(jié)·· · · 86 第5章 蒙特卡洛方法 ·· · 89 5.1 蒙特卡洛預測 · · · 90 5.2 動作價值的蒙特卡洛估計 ·· · · · · · · 94 5.3 蒙特卡洛控制 · ·· · · · 95 5.4 沒有試探性出發(fā)假設(shè)的蒙特卡洛控制 · ·· · · · · · 98 5.5 基于重要度采樣的離軌策略 · ·· · · · · · 101 5.6 增量式實現(xiàn) · ·· 107 5.7 離軌策略蒙特卡洛控制 · ·· · · ··· · · · · 108 5.8 ∗ 折扣敏感的重要度采樣·· · · · · ·110 5.9 ∗ 每次決策型重要度采樣·· · · · · 112 5.10 本章小結(jié)·· · · · · 113 第 6 章 時序差分學習 · ·· · · 117 6.1 時序差分預測 ·· 117 6.2 時序差分預測方法的優(yōu)勢 · ·· · · 122 6.3 TD(0) 的最優(yōu)性 ·· · · · · · · · · · · 124 6.4 Sarsa:同軌策略下的時序差分控制 · · · ·· · 127 6.5 Q 學習:離軌策略下的時序差分控制 · ·· · · 129 6.6 期望 Sarsa · ·· · 131 6.7 最大化偏差與雙學習· · · ·· · · · 133 6.8 游戲、后位狀態(tài)和其他特殊例子· ·· · 135 6.9 本章小結(jié)· ·· · 136 第7章 n 步自舉法 ·· · · 139 7.1 n 步時序差分預測 ·· · · · · · · · 140 7.2 n 步 Sarsa · ·· · · 144 7.3 n 步離軌策略學習 · · · · · · · ·146 7.4 ∗ 帶控制變量的每次決策型方法· ·· · ·148 7.5 不需要使用重要度采樣的離軌策略學習方法:n 步樹回溯算法· ·· · ·150 7.6 ∗ 一個統(tǒng)一的算法:n 步 Q() · ·· · ·153 7.7 本章小結(jié)·· ·· · ·155 第8章 基于表格型方法的規(guī)劃和學習 ·· · ·· · 157 8.1 模型和規(guī)劃 · ·· · 157 8.2 Dyna:集成在一起的規(guī)劃、動作和學習·· · · · · 159 8.3 當模型錯誤的時候 ·· ·· · · · 164 8.4 優(yōu)先遍歷· · ·· · · 166 8.5 期望更新與采樣更新的對比 ·· · ·· 170 8.6 軌跡采樣·· · · 173 8.7 實時動態(tài)規(guī)劃 ·· · 176 8.8 決策時規(guī)劃 ·· · 179 8.9 啟發(fā)式搜索 · ·· · · 180 8.10 預演算法· · · · 182 8.11 蒙特卡洛樹搜索· · · · · · · · 184 8.12 本章小結(jié) · ·· · · 187 8.13 第I部分總結(jié) ·· · · · · · · 188 第II部分 表格型近似求解方法· ·· · · · · · · · 193 第9章 基于函數(shù)逼近的同軌策略預測 ·· · · · · · · · 195 9.1 價值函數(shù)逼近 · · ·· · 195 9.2 預測目標 (VE ) ·· · · · · · · 196 9.3 隨機梯度和半梯度方法 · ·· · · 198 9.4 線性方法· · · · · ·· · · · 202 9.5 線性方法的特征構(gòu)造· ·· · · · · · · · 207 9.5.1 多項式基 · ·· · · · 208 9.5.2 傅立葉基 · · ·· · · · 209 9.5.3 粗編碼· · · · · · ·· · · 212 9.5.4 瓦片編碼· · ·· ·214 9.5.5 徑向基函數(shù) ·· · · · · · · · 218 9.6 手動選擇步長參數(shù) · · · ·· · · · · 219 9.7 非線性函數(shù)逼近:人工神經(jīng)網(wǎng)絡(luò)· · · ·· · · 220 9.8 最小二乘時序差分 · · · ·· · · · 225 9.9 基于記憶的函數(shù)逼近· · · · ·· · 227 9.10 基于核函數(shù)的函數(shù)逼近 · · · ·· · 229 9.11 深入了解同軌策略學習:興趣與強調(diào) · · ·· · · 230 9.12 本章小結(jié) · · ·· · · · 232 第10章 基于函數(shù)逼近的同軌策略控制· ·· · · · · · 239 10.1 分幕式半梯度控制 · · ·· 239 10.2 半梯度 n 步 Sarsa· ·· · · · · · · · 242 10.3 平均收益:持續(xù)性任務(wù)中的新的問題設(shè)定· · ·· · 245 10.4 棄用折扣 · · · ·· · · · · 249 10.5 差分半梯度 n 步 Sarsa · · · ·· 251 10.6 本章小結(jié) · ·· · · · · · 252 第11 章 ∗ 基于函數(shù)逼近的離軌策略方法· · · ·· 253 11.1 半梯度方法· · · ·· 254 11.2 離軌策略發(fā)散的例子· · · ·· 256 11.3 致命三要素· · · ·· 260 11.4 線性價值函數(shù)的幾何性質(zhì) · · · · · · · ·· · 262 11.5 對貝爾曼誤差做梯度下降 · · · · · · ·· · 266 11.6 貝爾曼誤差是不可學習的 · · · · · · · · · 270 11.7 梯度 TD 方法 · · · ·· · · · · · 274 11.8 強調(diào) TD 方法 · ··· 278 11.9 減小方差 · · ·· · · · · · · 279 11.10 本章小結(jié) · · · · ·· · · · · · 280 第12章 資格跡 · · · · ·· · · · 283 12.1 λ-回報· · · · ·· · · · · 284 12.2 TD(λ)· · · ·· · 287 12.3 n-步截斷 λ- 回報方法 · · ·291 12.4 重做更新:在線 λ-回報算法· · · · ·· · 292 12.5 真實的在線 TD(λ) · · · · ·· · 294 12.6 ∗ 蒙特卡洛學習中的荷蘭跡· · · · ·· · 296 12.7 Sarsa(λ)·· · · · ·· ·· 298 12.8 變量 λ 和 · · · · ·· · 303 12.9 帶有控制變量的離軌策略資格跡 · ·· · · · · · 304 12.10 從 Watkins 的 Q(λ) 到樹回溯 TB(λ)· · · · ·· · · 308 12.11 采用資格跡保障離軌策略方法的穩(wěn)定性 · · ·· · 310 12.12 實現(xiàn)中的問題 · · · ·· · · · · · · · · · · 312 12.13 本章小結(jié) · ·· · · · · · · · · · · · · · 312 第13章 策略梯度方法· · ·· · 317 13.1 策略近似及其優(yōu)勢 · · · · ··· · 318 13.2 策略梯度定理 ·· ·· 320 13.3 REINFORCE:蒙特卡洛策略梯度 · · · ·· · · 322 13.4 帶有基線的 REINFORCE · · ·· · · · 325 13.5 行動器-評判器方法 · · · · ·· · · 327 13.6 持續(xù)性問題的策略梯度 · · · ··· · · 329 13.7 針對連續(xù)動作的策略參數(shù)化方法 · · ··· · 332 13.8 本章小結(jié) · · · · ·· ·· · · 333 第III部分 表格型深入研究 · · · ·· ·· · 337 第14章 心理學 · ·· · · · · · · · 339 14.1 預測與控制 · ·· · · · · · · · · · · 340 14.2 經(jīng)典條件反射 · · · ·· · · · · · 341 14.2.1 阻塞與高級條件反射· · · · ·· · · 342 14.2.2 Rescorla-Wagner 模型· · · · ·· · 344 14.2.3 TD 模型 · · ·· · 347 14.2.4 TD 模型模擬 · · · ·· · · · · · 348 14.3 工具性條件反射· ·· · · · · 355 14.4 延遲強化 ·· · · 359 14.5 認知圖 · · · ·· · 361 14.6 習慣行為與目標導向行為 · · ·· · · · ·362 14.7 本章小結(jié) · · ·· · · · 366 第15章 神經(jīng)科學 · · ·· · · 373 15.1 神經(jīng)科學基礎(chǔ) · · · ·· · · · 374 15.2 收益信號、強化信號、價值和預測誤差 · ·· · · 375 15.3 收益預測誤差假說 · · · · · ·· · · 377 15.4 多巴胺 · · ·· · · · 379 15.5 收益預測誤差假說的實驗支持· · · ·· · · 382 15.6 TD 誤差/多巴胺對應(yīng) · ·· · · · · · 385 15.7 神經(jīng)行動器-評判器 · ·· · · · · · 390 15.8 行動器與評判器學習規(guī)則 · · · ·· · · 393 15.9 享樂主義神經(jīng)元· · · · · · ·· · · 397 15.10 集體強化學習 · · ·· · · · · 399 15.11 大腦中的基于模型的算法 · ·· · · 402 15.12 成癮· ·· · · · · · · 403 15.13 本章小結(jié) ·· · · · · 404 第 16 章 應(yīng)用及案例分析 · ·· · · · 413 16.1 TD-Gammon · · · ·· · 413 16.2 Samuel 的跳棋程序 · · · · · · ·· 418 16.3 Watson 的每日雙倍投注 · · · · · ·· · · · · 421 16.4 優(yōu)化內(nèi)存控制 · · · ·· · · · · 424 16.5 人類級別的視頻游戲 · · · · · · ·· · · · 428 16.6 主宰圍棋游戲 · · · · ·· · · · · 433 16.6.1 AlphaGo · · · ·· · · · · 436 16.6.2 AlphaGo Zero · · · ·· · · · ·439 16.7 個性化網(wǎng)絡(luò)服務(wù)· · ·· · 442 16.8 熱氣流滑翔 · ·· · · · · 446 第17章 前沿技術(shù) · · · · ·· · · · · · · · · · 451 17.1 廣義價值函數(shù)和輔助任務(wù) · · ·· · 451 17.2 基于選項理論的時序摘要 · · · · · · · · · ·· · · 453 17.3 觀測量和狀態(tài) · · · · ·· · · · 456 17.4 設(shè)計收益信號 · ·· · · · · · · · · 460 17.5 遺留問題 · ·· · · 464 17.6 人工智能的未來· · · · · · ·· 467 參考文獻 · ·· · · ·· 473
你還可能感興趣
我要評論
|