多智能體強化學習 基礎與現代方法

相關主題

商品描述

多智能體強化學習(MARL)是一個非常活躍的研究領域,隨著在2010年被納入深度學習的分支,該領域的研究呈爆炸式增長。本書部分基於Stefano V. Albrecht和Peter Stone在2017年國際人工智能聯合會議上發表的教程“多智能體學習:基礎和最新趨勢”,並且在很大程度上遵循了相同的結構,旨在對MARL進行原則性介紹,覆蓋模型解決方案的概念、算法的思想,以及MARL的技術挑戰,並描述了集成深度學習的現代方法。此外,本書還提供了MARL算法的實用指導,附帶了用Python編寫的代碼庫,其中包含書中討論的幾種MARL算法的實現,以幫助讀者理解並實踐,既適合MARL研究人員閱讀,又可以作為相關從業人員的參考。

目錄大綱

譯者序

前言

符號總覽

第1章 引言1

 1.1 多智能體系統1

 1.2 多智能體強化學習4

 1.3 應用示例6

1.3.1 多機器人倉庫管理6

1.3.2 棋盤遊戲和電子遊戲中的

競爭性對戰7

1.3.3 自動駕駛7

1.3.4 電子市場中的自動化

交易7

 1.4 多智能體強化學習的挑戰8

 1.5 多智能體強化學習的議題9

 1.6 本書內容和結構10第一部分 多智能體強化學習的基礎

第2章 強化學習12

 2.1 一般定義12

 2.2 馬爾可夫決策過程14

 2.3 期望折扣回報和最優策略16

 2.4 價值函數與貝爾曼方程17

 2.5 動態規劃18

 2.6 時序差分學習21

 2.7 學習曲線評估23

 2.8 R(s,a,s′)和R(s,a)的等價性26

 2.9 總結27

第3章 博弈:多智能體交互模型28

 3.1 標準式博弈29

 3.2 重覆標準式博弈30

 3.3 隨機博弈31

 3.4 部分可觀測隨機博弈33

 3.5 建模通信35

 3.6 博弈中的知識假設36

 3.7 詞典:強化學習與博弈論37

 3.8 總結38

第4章 博弈的解概念40

 4.1 聯合策略與期望回報41

 4.2 最佳響應42

 4.3 極小極大算法43

 4.4 納什均衡44

 4.5 -納什均衡46

 4.6 (粗)相關均衡47

 4.7 均衡解的概念局限性49

 4.8 帕雷托最優50

 4.9 社會福利和公平51

 4.10 無悔53

 4.11 均衡計算的覆雜性54

4.11.1 PPAD覆雜性類55

4.11.2 計算-納什均衡是PPAD-完全問題56

 4.12 總結57

第5章 博弈中的多智能體強化

學習:第一步與挑戰58

 5.1 一般學習過程58

 5.2 收斂類型60

 5.3 單智能體強化學習的簡化62

5.3.1 中心學習62

5.3.2 獨立學習63

5.3.3 示例:基於等級的搜尋65

 5.4 多智能體強化學習的挑戰66

5.4.1 非平穩性67

5.4.2 均衡選擇68

5.4.3 多智能體信用分配69

5.4.4 擴展到多個智能體71

 5.5 智能體使用哪些算法71

5.5.1 自博弈72

5.5.2 混合博弈72

 5.6 總結73

第6章 多智能體強化學習:基礎算法75

 6.1 博弈的動態規劃:價值疊代75

 6.2 博弈中的時序差分:聯合動作學習77

6.2.1 極小極大Q學習79

6.2.2 納什Q學習80

6.2.3 相關Q學習81

6.2.4 聯合動作學習的局限性81

 6.3 智能體建模82

6.3.1 虛擬博弈83

6.3.2 智能體建模的聯合動作學習85

6.3.3 貝葉斯學習與信息價值87

 6.4 基於策略的學習92

6.4.1 期望獎勵中的梯度上升92

6.4.2 無窮小梯度上升的學習動態93

6.4.3 贏或快速學習94

6.4.4 用策略爬山算法實現贏或快速學習96

6.4.5 廣義無窮小梯度上升98

 6.5 無悔學習99

6.5.1 無條件與有條件的遺憾匹配99

6.5.2 遺憾匹配的收斂性100

 6.6 總結103

第二部分 多智能體深度強化學習:算法與實踐

第7章 深度學習106

 7.1 強化學習的函數逼近106

 7.2 線性函數逼近107

 7.3 前饋神經網絡108

7.3.1 神經元109

7.3.2 激活函數109

7.3.3 由層和單元構成網絡110

 7.4 基於梯度的優化111

7.4.1 損失函數111

7.4.2 梯度下降112

7.4.3 反向傳播114

 7.5 捲積神經網絡與遞歸神經網絡114

7.5.1 從圖像中學習——利用數據中的空間關系115

7.5.2 利用記憶從序列中學習116

 7.6 總結117

第8章 深度強化學習119

 8.1 深度價值函數逼近119

8.1.1 深度Q學習——可能出現什麽問題120

8.1.2 目標值變動問題121

8.1.3 打破相關性123

8.1.4 匯總:深度Q網絡124

8.1.5 超越深度Q網絡126

 8.2 策略梯度算法126

8.2.1 學習策略的優勢127

8.2.2 策略梯度定理128

8.2.3 REINFORCE:蒙特卡羅策略梯度129

8.2.4 演員-評論家算法131

8.2.5 A2C:優勢演員-評論家132

8.2.6 近端策略優化134

8.2.7 策略梯度算法在實踐中的應用135

8.2.8 策略的並行訓練136

 8.3 實踐中的觀測、狀態和歷史記錄139

 8.4 總結140

第9章 多智能體深度強化學習142

 9.1 訓練和執行模式142

9.1.1 集中式訓練和執行143

9.1.2 分佈式訓練和執行143

9.1.3 集中式訓練與分佈式執行144

 9.2 多智能體深度強化學習的符號表示144

 9.3 獨立學習145

9.3.1 基於獨立價值的學習145

9.3.2 獨立策略梯度方法146

9.3.3 示例:大型任務中的深度獨立學習149

 9.4 多智能體策略梯度算法150

9.4.1 多智能體策略梯度定理150

9.4.2 集中式評論家151

9.4.3 集中式動作-價值評論家153

9.4.4 反事實動作-價值估計154

9.4.5 使用集中式動作-價值評論家的均衡選擇155

 9.5 共享獎勵博弈中的價值分解157

9.5.1 個體-全局-最大化性質159

9.5.2 線性價值分解159

9.5.3 單調價值分解162

9.5.4 實踐中的價值分解166

9.5.5 超越單調價值分解170

 9.6 使用神經網絡的智能體建模173

9.6.1 用深度智能體模型進行聯合動作學習173

9.6.2 學習智能體策略的表示176

 9.7 具有同質智能體的環境178

9.7.1 參數共享179

9.7.2 經驗共享180

 9.8 零和博弈中的策略自博弈182

9.8.1 蒙特卡羅樹搜索183

9.8.2 自博弈蒙特卡羅樹搜索186

9.8.3 帶有深度神經網絡的自博弈MCTS:AlphaZero187

 9.9 基於種群的訓練188

9.9.1 策略空間響應預言家189

9.9.2 PSRO的收斂性192

9.9.3 《星際爭霸Ⅱ》中的宗師級別:AlphaStar194

 9.10 總結196

第10章 實踐中的多智能體深度強化學習198

 10.1 智能體環境接口198

 10.2 PyTorch中的多智能體強化學習神經網絡199

10.2.1 無縫參數共享實現201

10.2.2 定義模型:IDQN的一個示例201

 10.3 集中式價值函數203

 10.4 價值分解204

 10.5 多智能體強化學習算法的實用技巧205

10.5.1 堆疊時間步與循環網絡205

10.5.2 標準化獎勵205

10.5.3 集中式優化206

 10.6 實驗結果的展示206

10.6.1 學習曲線206

10.6.2 超參數搜索207

第11章 多智能體環境209

 11.1 選擇環境的標準209

 11.2 結構不同的2×2矩陣博弈210

11.2.1 無沖突博弈210

11.2.2 沖突博弈211

 11.3 覆雜環境212

11.3.1 基於等級的搜尋213

11.3.2 多智能體粒子環境214

11.3.3 星際爭霸多智能體挑戰215

11.3.4 多機器人倉庫216

11.3.5 谷歌足球217

11.3.6 《花火》217

11.3.7 《胡鬧廚房》218

 11.4 環境集合218

11.4.1 熔爐219

11.4.2 OpenSpiel219

11.4.3 Petting Zoo220多智能體強化學習研究綜述221

參 考 文 獻224

最後瀏覽商品 (1)