動手學博弈論

溫穎 周銘 俞勇

  • 出版商: 人民郵電
  • 出版日期: 2026-06-01
  • 定價: $539
  • 售價: $538
  • 語言: 簡體中文
  • 頁數: 286
  • ISBN: 7115693846
  • ISBN-13: 9787115693846
  • 相關分類: Reinforcement
  • 下單後立即進貨 (約4週~6週)

  • 動手學博弈論-preview-1
動手學博弈論-preview-1

商品描述

本書圍繞“博弈論與人工智能”這一主題,介紹從博弈基礎理論到多智能體協作的完整知識體系,是一本著眼於博弈論的教學實踐的教材。

本書分為5部分。第一部分(第1章~第6章)介紹標準式博弈及其核心概念,第二部分(第7章~第11章)深入探討擴展式博弈,第三部分(第12章~第15章)轉向合作博弈,第四部分(第16章~第21章)闡述馬爾可夫決策過程與隨機博弈,第五部分(第22章~第28章)將深入講解多智能體協作。本書將理論與代碼示例相結合,讓讀者在掌握博弈論原理的同時,能將其運用於多智能體系統的設計與實現。

作者簡介

溫穎,上海交通大學人工智能學院副教授,主要研究方向包括博弈論、多智能體系統與深度強化學習。主持並參與多項國家自然科學基金和重點研發計劃項目,相關研究成果發表於國際頂級期刊與會議,並擁有多項發明專利。曾在多場國際重要學術會議擔任程序委員會委員,積極推動博弈論與人工智能交叉領域的發展,在多智能體協作策略、合作博弈算法設計、智能決策系統等方面取得了豐富成果。

周銘,上海人工智能實驗室青年研究員,主要研究方向包括開放式學習、具身人工智能和機器學習系統。2018年於四川大學學士獲得學位,同年進入上海交通大學直接攻讀博士學位,2023年於電子信息與電氣工程學院獲得博士學位。

俞勇,享受國務院特殊津貼專家,首批“國家高層次人才特殊支持計劃”教學名師,上海交通大學特聘教授,上海交通大學ACM班創辦人,APEX數據與知識管理實驗室主任。曾獲得“全國模範教師”“全國師德標兵”“CCF傑出教育獎”“上海市五一勞動獎章”和“上海交通大學校長獎”等榮譽。2018年創辦伯禹人工智能學院,在上海交通大學ACM班人工智能專業課程體系的基礎上,對人工智能課程體系進行創新,致力於培養卓越的人工智能算法工程師和研究員。2025年創辦知春創新中心,探索中學和大學貫通式人才培養模式,打造AI時代創新人才培養“加速器”。

目錄大綱

第 一部分 標準式博弈

第 1章 初探博弈論 2

1.1 博弈論的概念 2

1.2 歷史背景與發展脈絡 3

1.3 博弈的類型 3

1.3.1 非合作博弈與合作博弈 4

1.3.2 標準式博弈與擴展式博弈 4

1.3.3 完全信息博弈與不完全信息博弈,完美信息博弈與不完美信息博弈 4

1.3.4 零和博弈與非零和博弈 4

1.4 博弈論的核心假設 5

1.5 博弈模型的要素 5

1.6 小結 6

第 2章 標準式博弈基礎 7

2.1 場景引入:電影博弈 7

2.2 標準式博弈的定義 7

2.3 常見的標準式博弈 8

2.4 標準式博弈的代碼實現 9

2.5 小結 9

2.6 延伸閱讀與思考 10

第3章 標準式博弈中的策略 11

3.1 場景引入:“剪刀-石頭-布”博弈 11

3.2 策略的形式化定義 12

3.2.1 純策略與混合策略 12

3.2.2 期望收益的計算 12

3.3 策略的代碼實現 13

3.3.1 表示與計算“剪刀-石頭-布”博弈的收益 13

3.3.2 純策略與混合策略示例 14

3.4 占優策略與占優策略均衡 15

3.4.1 囚徒困境中的占優策略 15

3.4.2 代碼實現:識別囚徒困境的占優策略 16

3.5 小結 17

第4章 納什均衡 18

4.1 場景引入:從“匹配硬幣”到“最佳應對” 18

4.2 納什均衡的定義 19

4.2.1 最佳應對 19

4.2.2 納什均衡 19

4.3 求解納什均衡的代碼實現 20

4.4 納什均衡的存在性、多重性、最優性與社會福利 22

4.5 小結 22

4.6 延伸閱讀與思考 23

第5章 支撐枚舉法求解納什均衡 24

5.1 場景引入:協調遊戲中的多重均衡 24

5.2 支撐的最佳混合策略應對 26

5.3 混合策略的納什均衡條件 28

5.4 支撐枚舉法 30

5.5 支撐枚舉法求解二人標準式博弈實例 31

5.6 小結 32

第6章 虛擬對弈求解納什均衡 33

6.1 場景引入:重復“猜拳”的策略調整 33

6.2 虛擬對弈 34

6.2.1 虛擬對弈的代碼實現 34

6.2.2 虛擬對弈的收斂性 38

6.3 隨機虛擬對弈 38

6.3.1 隨機虛擬對弈的代碼實現 38

6.3.2 隨機虛擬對弈的性質 42

6.4 小結 42

第二部分 擴展式博弈

第7章 擴展式博弈基礎 44

7.1 場景引入:離散版的最後通牒博弈 44

7.2 擴展式博弈的定義 45

7.3 博弈樹與信息集合:離散版的最後通牒博弈的表示 46

7.4 擴展式博弈中的策略與純策略納什均衡 46

7.4.1 策略的形式 47

7.4.2 求解與均衡 47

7.4.3 代碼實現 47

7.5 擴展式博弈與標準式博弈的比較 51

7.6 小結 51

7.7 延伸閱讀與思考 52

第8章 子博弈精煉納什均衡 53

8.1 場景引入:動態競價 53

8.2 子博弈精煉納什均衡 54

8.2.1 子博弈的定義 54

8.2.2 子博弈精煉納什均衡的定義 54

8.3 逆向歸納法求解:從後向前看 55

8.3.1 示例:二人擴展式博弈 55

8.3.2 多子博弈場景下的遞歸思路 56

8.4 逆向歸納法的代碼實現 56

8.5 子博弈精煉納什均衡與納什均衡的關系及其合理性與局限性 62

8.5.1 子博弈精煉納什均衡與納什均衡的關系 63

8.5.2 合理性與“不合理行為” 63

8.5.3 多重性與唯一性 63

8.6 小結 63

第9章 擴展式虛擬自對弈 65

9.1 場景引入:大規模擴展式博弈 65

9.2 廣義弱化虛擬對弈:從標準式到擴展式 65

9.2.1 廣義弱化虛擬對弈的概念 66

9.2.2 行為策略與混合策略的等價性 66

9.3 全寬度擴展式虛擬自對弈 66

9.4 擴展式虛擬自對弈的代碼實現 67

9.5 小結 78

第 10章 遺憾最小化 80

10.1 場景引入:廣告投放 80

10.2 遺憾與無遺憾學習 81

10.3 反事實遺憾最小化 82

10.4 Kuhn撲克中反事實遺憾最小化的代碼實現 83

10.4.1 Kuhn撲克博弈樹定義 84

10.4.2 反事實遺憾最小化算法實現 86

10.4.3 主函數:訓練並輸出平均策略與博弈值 89

10.5 小結 90

第 11章 重復博弈 92

11.1 場景引入:重復的囚徒困境 92

11.2 有限與無限重復博弈 93

11.2.1 有限重復博弈 93

11.2.2 無限重復博弈 93

11.3 重復博弈的代碼實現 94

11.3.1 有限重復囚徒困境模擬 94

11.3.2 Tit-for-Tat 策略與無限重復模擬 96

11.4 小結 99

11.5 延伸閱讀與思考 100

第三部分 合作博弈

第 12章 合作博弈 102

12.1 場景引入:牛排定價博弈 102

12.2 合作博弈的定義 103

12.3 合作博弈的代碼實現 103

12.4 小結 105

12.5 延伸閱讀與思考 106

第 13章 特征函數 107

13.1 場景引入:農業合作社 107

13.2 特征函數的定義 107

13.3 特征函數的分類 108

13.3.1 單調博弈 109

13.3.2 超可加博弈 110

13.3.3 凸博弈 111

13.3.4 簡單博弈 112

13.4 小結 112

第 14章 核與核仁 113

14.1 場景引入:購買冰淇淋 113

14.2 收益分配的原則 114

14.2.1 收益分配與有效性、個體理性 114

14.2.2 核 114

14.2.3 核的存在性 115

14.3 核仁 115

14.3.1 超額值 115

14.3.2 核仁的正式定義 116

14.4 核與核仁求解的代碼實現 116

14.4.1 核的數值求解示例 116

14.4.2 核仁的數值求解思路 118

14.5 小結 119

14.6 延伸閱讀與思考 120

第 15章 夏普利值 121

15.1 場景引入:滿減優惠活動 121

15.2 夏普利值的定義 121

15.2.1 夏普利值 122

15.2.2 夏普利值的性質 122

15.3 夏普利值計算的代碼實現 123

15.4 夏普利值與可解釋機器學習 125

15.5 小結 132

第四部分 馬爾可夫決策過程與隨機博弈

第 16章 馬爾可夫決策過程 134

16.1 場景引入:自動駕駛 134

16.2 馬爾可夫決策過程的定義 134

16.3 最大化累計獎勵 135

16.4 貝爾曼等式 136

16.5 求解馬爾可夫決策過程的動態規劃算法 136

16.5.1 值疊代 136

16.5.2 策略疊代 138

16.6 強化學習與無模型學習 140

16.6.1 值學習 140

16.6.2 策略梯度 141

16.7 小結 142

第 17章 隨機博弈 143

17.1 場景引入:Goofspiel遊戲 143

17.2 隨機博弈的定義 144

17.3 馬爾可夫假設與非平穩性問題 145

17.4 部分可觀測假設 145

17.5 隨機博弈的解概念 146

17.6 小結 147

第 18章 求解隨機博弈 148

18.1 場景引入:雙人網格化足球遊戲 148

18.2 值疊代 151

18.3 策略疊代 153

18.4 強化學習 156

18.5 小結 158

第 19章 最佳應對學習 160

19.1 場景引入:合作與對抗中的策略選擇 160

19.2 虛擬對弈 160

19.3 雙時間尺度疊代 163

19.4 小結 166

第 20章 聯合動作學習 167

20.1 場景引入:團隊合作中的策略學習 167

20.2 虛擬對弈與值函數估計 168

20.3 虛擬對弈和混合策略 170

20.4 混合策略JAL算法 172

20.5 小結 173

第 21章 理性和收斂性 175

21.1 場景引入:機器人協作問題 175

21.2 理性和收斂性 176

21.3 與納什均衡的關系 176

21.4 PHC算法 177

21.5 WoLF原則與WoLF-PHC算法 182

21.6 小結 186

第五部分 多智能體協作

第 22章 深度強化學習基礎 188

22.1 深度值函數網絡算法 188

22.1.1 值估計非平穩性問題 189

22.1.2 連續經驗相關性問題 190

22.1.3 求解CartPole問題 192

22.1.4 過估計問題 193

22.2 深度策略梯度算法 195

22.2.1 更豐富的策略表達形式 195

22.2.2 可擴展至連續動作空間 196

22.2.3 策略梯度理論 197

22.2.4 實現策略梯度算法 198

22.3 演員-評論家算法 202

22.3.1 優勢演員-評論家算法 204

22.3.2 近端策略優化算法 207

22.4 小結 209

第 23章 多智能體深度強化學習 210

23.1 場景引入:自動駕駛車輛交互 210

23.2 多智能體深度強化學習的核心挑戰 211

23.3 多智能體深度強化學習的訓練範式 212

23.4 小結 214

第 24章 獨立學習 215

24.1 場景引入:交通信號燈控制系統 215

24.2 獨立值學習 215

24.3 獨立策略梯度算法 217

24.4 小結 218

第 25章 多智能體值函數學習 220

25.1 場景引入:資源收集+協作障礙任務 220

25.2 值函數分解 221

25.2.1 個體全局最大性質 222

25.2.2 線性值函數分解 223

25.2.3 單調值函數分解 223

25.3 小結 228

第 26章 多智能體近端策略優化 230

26.1 場景引入:團隊對抗任務 230

26.2 Dec-POMDP 231

26.3 MAPPO的核心思想 231

26.4 MAPPO應用 233

26.4.1 緩解非平穩性問題 233

26.4.2 實現MAPPO 233

26.4.3 MAPPO的代碼示例 235

26.5 小結 247

第 27章 多智能體序列學習 248

27.1 場景引入:合作任務中的多智能體學習 248

27.2 順序更新模式的理論基礎 248

27.2.1 優勢函數分解與順序更新 249

27.2.2 優勢函數分解引理 249

27.2.3 策略單調提升界 250

27.3 A2OP算法 251

27.3.1 A2PO算法的單智能體策略單調提升界 252

27.3.2 A2PO算法的聯合策略單調提升界 253

27.4 代碼實現 254

27.5 MAT算法 259

27.6 小結 268

第 28章 蒙特卡洛樹搜索和群體學習 269

28.1 蒙特卡洛樹搜索 270

28.1.1 自博弈訓練MCTS 271

28.1.2 Tic-tac-Toe 276

28.1.3 AlphaZero 279

28.2 群體學習 280

28.2.1 PSRO算法 280

28.2.2 經驗博弈理論分析 281

28.2.3 元博弈及其求解 281

28.2.4 策略集合擴展 284

28.2.5 PSRO算法收斂性 285

28.3 小結 286