定 價:128 元
叢書名:新一代人工智能理論、技術(shù)及應(yīng)用叢書
當前圖書已被 23 所學(xué)校薦購過!
查看明細
- 作者:
- 出版時間:2024/3/1
- ISBN:9787030770950
- 出 版 社:科學(xué)出版社
本書嘗試總結(jié)近年來游戲人工智能方向的優(yōu)秀研究工作,以及作者的一些探索成果。主要內(nèi)容包括游戲人工智能的背景、經(jīng)典的游戲人工智能方法、DeepMind針對棋牌和視頻類游戲的人工智能方法,以及作者團隊針對即時游戲的人工智能方法,如格斗游戲、星際爭霸的宏觀生產(chǎn)和微觀操作等。從理論分析到算法設(shè)計到編程實現(xiàn),旨在為讀者提供一個針對不同游戲人工智能問題的系統(tǒng)性論述。
更多科學(xué)出版社服務(wù),請掃碼獲取。
趙冬斌,易建強。全方位移動機器人導(dǎo)論�?茖W(xué)出版社
目錄
“新一代人工智能理論、技術(shù)及應(yīng)用叢書”序
前言
第1章游戲人工智能介紹1
1.1引言1
1.1.1游戲人工智能背景和意義1
1.1.2游戲人工智能研究發(fā)展1
1.2回合制游戲人工智能3
1.2.1棋類游戲人工智能發(fā)展歷程3
1.2.2牌類游戲人工智能發(fā)展歷程4
1.2.3棋牌類游戲人工智能測試平臺5
1.3即時制游戲人工智能7
1.3.1即時制游戲平臺和競賽7
1.3.2雅達利游戲8
1.3.3第一人稱視角游戲9
1.3.4即時策略游戲10
1.4游戲人工智能的關(guān)鍵性挑戰(zhàn)與研究思路12
1.5游戲人工智能的未來發(fā)展趨勢與展望13
1.5.1基于深度強化學(xué)習(xí)方法的策略模型泛化性14
1.5.2構(gòu)建高效魯棒合理的前向推理模型14
1.5.3增強模型的環(huán)境適應(yīng)和學(xué)習(xí)優(yōu)化性能14
1.5.4從虛擬環(huán)境到實際應(yīng)用的遷移15
1.6本章小結(jié)15
參考文獻15
第2章基本游戲人工智能方法20
2.1引言20
2.2經(jīng)典博弈樹模型20
2.2.1極小化極大算法20
2.2.2α-β剪枝算法21
2.3統(tǒng)計前向規(guī)劃22
2.3.1蒙特卡羅樹搜索算法23
2.3.2滾動時域演化算法26
2.4強化學(xué)習(xí)27
2.4.1蒙特卡羅算法29
2.4.2時間差分強化學(xué)習(xí)算法30
2.4.3策略梯度學(xué)習(xí)算法31
2.5深度強化學(xué)習(xí)33
2.5.1深度Q網(wǎng)絡(luò)及其擴展34
2.5.2異步優(yōu)勢執(zhí)行器-評價器算法及其擴展38
2.5.3策略梯度深度強化學(xué)習(xí)40
2.5.4面向?qū)共┺牡纳疃葟娀瘜W(xué)習(xí)43
2.6本章小結(jié)45
參考文獻45
第3章DeepMind游戲人工智能方法51
3.1引言51
3.2AlphaGo51
3.2.1算法概述52
3.2.2計算機圍棋的發(fā)展歷史與現(xiàn)狀52
3.2.3原理分析53
3.2.4性能分析56
3.2.5評價57
3.3AlphaGoZero.58
3.3.1算法概述58
3.3.2深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)61
3.3.3蒙特卡羅樹搜索61
3.3.4訓(xùn)練流程64
3.3.5討論65
3.4AlphaZero和MuZero66
3.4.1AlphaZero概述67
3.4.2MuZero概述68
3.4.3算法解析70
3.4.4性能分析72
3.5AlphaStar74
3.5.1星際爭霸研究意義74
3.5.2算法概述75
3.5.3算法解析76
3.5.4性能分析78
3.6本章小結(jié)81
參考文獻82
第4章兩人零和馬爾可夫博弈的極小化極大Q網(wǎng)絡(luò)算法85
4.1引言85
4.2兩人零和馬爾可夫博弈的基本知識86
4.2.1兩人零和馬爾可夫博弈86
4.2.2納什均衡或極小化極大均衡86
4.2.3極小化極大價值和極小化極大方程86
4.2.4線性規(guī)劃求解極小化極大解87
4.3動態(tài)規(guī)劃求解貝爾曼極小化極大方程88
4.3.1值迭代88
4.3.2策略迭代88
4.3.3廣義策略迭代89
4.4極小化極大Q網(wǎng)絡(luò)算法90
4.4.1Q函數(shù)神經(jīng)網(wǎng)絡(luò)90
4.4.2在線學(xué)習(xí)90
4.4.3M2QN算法在查表法下的收斂性92
4.5仿真實驗94
4.5.1足球博弈94
4.5.2守護領(lǐng)土96
4.5.3格斗游戲98
4.6本章小結(jié)101
參考文獻101
第5章格斗游戲的對手模型和滾動時域演化算法104
5.1引言104
5.2基于滾動時域演化的統(tǒng)計前向規(guī)劃建模105
5.2.1格斗游戲問題定義105
5.2.2滾動時域演化算法105
5.3基于自適應(yīng)對手模型的神經(jīng)網(wǎng)絡(luò)建模107
5.3.1對手模型建模107
5.3.2監(jiān)督學(xué)習(xí)式對手模型107
5.3.3強化學(xué)習(xí)式對手模型108
5.4實驗設(shè)計與測試結(jié)果110
5.4.1實驗設(shè)置與測試平臺110
5.4.2內(nèi)部比較111
5.4.3對抗2018年格斗游戲程序113
5.4.4兩種統(tǒng)計前向規(guī)劃與對手建模結(jié)合的性能比較114
5.4.52019年格斗游戲競賽結(jié)果115
5.4.62020年格斗游戲競賽結(jié)果115
5.4.7性能指標分析116
5.4.8討論121
5.5本章小結(jié)121
參考文獻122
第6章星際爭霸宏觀生產(chǎn)的深度強化學(xué)習(xí)算法124
6.1引言124
6.2星際爭霸宏觀生產(chǎn)決策分析與建模125
6.2.1問題定義125
6.2.2輸入狀態(tài)特征126
6.2.3決策動作定義128
6.2.4決策神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)128
6.2.5基于策略和價值混合式網(wǎng)絡(luò)的決策系統(tǒng)優(yōu)化方法129
6.3實驗設(shè)置與結(jié)果分析132
6.3.1星際爭霸宏觀決策對抗優(yōu)化場景132
6.3.2對抗優(yōu)化場景下的實驗結(jié)果133
6.3.3星際爭霸學(xué)生天梯賽136
6.4本章小結(jié)136
參考文獻136
第7章星際爭霸微操的強化學(xué)習(xí)和課程遷移學(xué)習(xí)算法138
7.1引言138
7.2星際爭霸微操任務(wù)分析與建模139
7.2.1問題定義139
7.2.2高維狀態(tài)表示140
7.2.3動作定義141
7.2.4網(wǎng)絡(luò)結(jié)構(gòu)141
7.3基于強化學(xué)習(xí)的星際爭霸多單位控制142
7.3.1共享參數(shù)多智能體梯度下降Sarsa(λ)算法143
7.3.2獎賞函數(shù)144
7.3.3幀跳躍145
7.3.4課程遷移學(xué)習(xí)145
7.4實驗設(shè)置和結(jié)果分析146
7.4.1星際爭霸微操場景設(shè)置146
7.4.2結(jié)果討論147
7.4.3策略分析151
7.5本章小結(jié)154
參考文獻154
第8章星際爭霸微操的可變數(shù)量多智能體強化學(xué)習(xí)算法156
8.1引言156
8.2背景知識與相關(guān)工作156
8.2.1多智能體強化學(xué)習(xí)156
8.2.2聯(lián)合觀測動作價值函數(shù)分解158
8.2.3相關(guān)工作158
8.3可變數(shù)量多智能體強化學(xué)習(xí)162
8.3.1自加權(quán)混合網(wǎng)絡(luò)162
8.3.2適應(yīng)動作空間變化的智能體網(wǎng)絡(luò)165
8.3.3可變網(wǎng)絡(luò)的訓(xùn)練算法166
8.4星際爭霸II微操實驗169
8.4.1可變網(wǎng)絡(luò)在星際爭霸II微操環(huán)境的實驗設(shè)置169
8.4.2可變網(wǎng)絡(luò)實驗結(jié)果170
8.4.3消融實驗172
8.4.4可變網(wǎng)絡(luò)策略分析174
8.5本章小結(jié)175
參考文獻176
附錄A強化學(xué)習(xí)符號表178
附錄B主要詞匯中英文對照表179