動手學博弈論
溫穎 周銘 俞勇
- 出版商: 人民郵電
- 出版日期: 2026-06-01
- 定價: $539
- 售價: $538
- 語言: 簡體中文
- 頁數: 286
- ISBN: 7115693846
- ISBN-13: 9787115693846
-
相關分類:
Reinforcement
下單後立即進貨 (約4週~6週)
商品描述
本書圍繞“博弈論與人工智能”這一主題,介紹從博弈基礎理論到多智能體協作的完整知識體系,是一本著眼於博弈論的教學實踐的教材。
本書分為5部分。第一部分(第1章~第6章)介紹標準式博弈及其核心概念,第二部分(第7章~第11章)深入探討擴展式博弈,第三部分(第12章~第15章)轉向合作博弈,第四部分(第16章~第21章)闡述馬爾可夫決策過程與隨機博弈,第五部分(第22章~第28章)將深入講解多智能體協作。本書將理論與代碼示例相結合,讓讀者在掌握博弈論原理的同時,能將其運用於多智能體系統的設計與實現。
作者簡介
溫穎,上海交通大學人工智能學院副教授,主要研究方向包括博弈論、多智能體系統與深度強化學習。主持並參與多項國家自然科學基金和重點研發計劃項目,相關研究成果發表於國際頂級期刊與會議,並擁有多項發明專利。曾在多場國際重要學術會議擔任程序委員會委員,積極推動博弈論與人工智能交叉領域的發展,在多智能體協作策略、合作博弈算法設計、智能決策系統等方面取得了豐富成果。
周銘,上海人工智能實驗室青年研究員,主要研究方向包括開放式學習、具身人工智能和機器學習系統。2018年於四川大學學士獲得學位,同年進入上海交通大學直接攻讀博士學位,2023年於電子信息與電氣工程學院獲得博士學位。
俞勇,享受國務院特殊津貼專家,首批“國家高層次人才特殊支持計劃”教學名師,上海交通大學特聘教授,上海交通大學ACM班創辦人,APEX數據與知識管理實驗室主任。曾獲得“全國模範教師”“全國師德標兵”“CCF傑出教育獎”“上海市五一勞動獎章”和“上海交通大學校長獎”等榮譽。2018年創辦伯禹人工智能學院,在上海交通大學ACM班人工智能專業課程體系的基礎上,對人工智能課程體系進行創新,致力於培養卓越的人工智能算法工程師和研究員。2025年創辦知春創新中心,探索中學和大學貫通式人才培養模式,打造AI時代創新人才培養“加速器”。
目錄大綱
第 一部分 標準式博弈
第 1章 初探博弈論 2
1.1 博弈論的概念 2
1.2 歷史背景與發展脈絡 3
1.3 博弈的類型 3
1.3.1 非合作博弈與合作博弈 4
1.3.2 標準式博弈與擴展式博弈 4
1.3.3 完全信息博弈與不完全信息博弈,完美信息博弈與不完美信息博弈 4
1.3.4 零和博弈與非零和博弈 4
1.4 博弈論的核心假設 5
1.5 博弈模型的要素 5
1.6 小結 6
第 2章 標準式博弈基礎 7
2.1 場景引入:電影博弈 7
2.2 標準式博弈的定義 7
2.3 常見的標準式博弈 8
2.4 標準式博弈的代碼實現 9
2.5 小結 9
2.6 延伸閱讀與思考 10
第3章 標準式博弈中的策略 11
3.1 場景引入:“剪刀-石頭-布”博弈 11
3.2 策略的形式化定義 12
3.2.1 純策略與混合策略 12
3.2.2 期望收益的計算 12
3.3 策略的代碼實現 13
3.3.1 表示與計算“剪刀-石頭-布”博弈的收益 13
3.3.2 純策略與混合策略示例 14
3.4 占優策略與占優策略均衡 15
3.4.1 囚徒困境中的占優策略 15
3.4.2 代碼實現:識別囚徒困境的占優策略 16
3.5 小結 17
第4章 納什均衡 18
4.1 場景引入:從“匹配硬幣”到“最佳應對” 18
4.2 納什均衡的定義 19
4.2.1 最佳應對 19
4.2.2 納什均衡 19
4.3 求解納什均衡的代碼實現 20
4.4 納什均衡的存在性、多重性、最優性與社會福利 22
4.5 小結 22
4.6 延伸閱讀與思考 23
第5章 支撐枚舉法求解納什均衡 24
5.1 場景引入:協調遊戲中的多重均衡 24
5.2 支撐的最佳混合策略應對 26
5.3 混合策略的納什均衡條件 28
5.4 支撐枚舉法 30
5.5 支撐枚舉法求解二人標準式博弈實例 31
5.6 小結 32
第6章 虛擬對弈求解納什均衡 33
6.1 場景引入:重復“猜拳”的策略調整 33
6.2 虛擬對弈 34
6.2.1 虛擬對弈的代碼實現 34
6.2.2 虛擬對弈的收斂性 38
6.3 隨機虛擬對弈 38
6.3.1 隨機虛擬對弈的代碼實現 38
6.3.2 隨機虛擬對弈的性質 42
6.4 小結 42
第二部分 擴展式博弈
第7章 擴展式博弈基礎 44
7.1 場景引入:離散版的最後通牒博弈 44
7.2 擴展式博弈的定義 45
7.3 博弈樹與信息集合:離散版的最後通牒博弈的表示 46
7.4 擴展式博弈中的策略與純策略納什均衡 46
7.4.1 策略的形式 47
7.4.2 求解與均衡 47
7.4.3 代碼實現 47
7.5 擴展式博弈與標準式博弈的比較 51
7.6 小結 51
7.7 延伸閱讀與思考 52
第8章 子博弈精煉納什均衡 53
8.1 場景引入:動態競價 53
8.2 子博弈精煉納什均衡 54
8.2.1 子博弈的定義 54
8.2.2 子博弈精煉納什均衡的定義 54
8.3 逆向歸納法求解:從後向前看 55
8.3.1 示例:二人擴展式博弈 55
8.3.2 多子博弈場景下的遞歸思路 56
8.4 逆向歸納法的代碼實現 56
8.5 子博弈精煉納什均衡與納什均衡的關系及其合理性與局限性 62
8.5.1 子博弈精煉納什均衡與納什均衡的關系 63
8.5.2 合理性與“不合理行為” 63
8.5.3 多重性與唯一性 63
8.6 小結 63
第9章 擴展式虛擬自對弈 65
9.1 場景引入:大規模擴展式博弈 65
9.2 廣義弱化虛擬對弈:從標準式到擴展式 65
9.2.1 廣義弱化虛擬對弈的概念 66
9.2.2 行為策略與混合策略的等價性 66
9.3 全寬度擴展式虛擬自對弈 66
9.4 擴展式虛擬自對弈的代碼實現 67
9.5 小結 78
第 10章 遺憾最小化 80
10.1 場景引入:廣告投放 80
10.2 遺憾與無遺憾學習 81
10.3 反事實遺憾最小化 82
10.4 Kuhn撲克中反事實遺憾最小化的代碼實現 83
10.4.1 Kuhn撲克博弈樹定義 84
10.4.2 反事實遺憾最小化算法實現 86
10.4.3 主函數:訓練並輸出平均策略與博弈值 89
10.5 小結 90
第 11章 重復博弈 92
11.1 場景引入:重復的囚徒困境 92
11.2 有限與無限重復博弈 93
11.2.1 有限重復博弈 93
11.2.2 無限重復博弈 93
11.3 重復博弈的代碼實現 94
11.3.1 有限重復囚徒困境模擬 94
11.3.2 Tit-for-Tat 策略與無限重復模擬 96
11.4 小結 99
11.5 延伸閱讀與思考 100
第三部分 合作博弈
第 12章 合作博弈 102
12.1 場景引入:牛排定價博弈 102
12.2 合作博弈的定義 103
12.3 合作博弈的代碼實現 103
12.4 小結 105
12.5 延伸閱讀與思考 106
第 13章 特征函數 107
13.1 場景引入:農業合作社 107
13.2 特征函數的定義 107
13.3 特征函數的分類 108
13.3.1 單調博弈 109
13.3.2 超可加博弈 110
13.3.3 凸博弈 111
13.3.4 簡單博弈 112
13.4 小結 112
第 14章 核與核仁 113
14.1 場景引入:購買冰淇淋 113
14.2 收益分配的原則 114
14.2.1 收益分配與有效性、個體理性 114
14.2.2 核 114
14.2.3 核的存在性 115
14.3 核仁 115
14.3.1 超額值 115
14.3.2 核仁的正式定義 116
14.4 核與核仁求解的代碼實現 116
14.4.1 核的數值求解示例 116
14.4.2 核仁的數值求解思路 118
14.5 小結 119
14.6 延伸閱讀與思考 120
第 15章 夏普利值 121
15.1 場景引入:滿減優惠活動 121
15.2 夏普利值的定義 121
15.2.1 夏普利值 122
15.2.2 夏普利值的性質 122
15.3 夏普利值計算的代碼實現 123
15.4 夏普利值與可解釋機器學習 125
15.5 小結 132
第四部分 馬爾可夫決策過程與隨機博弈
第 16章 馬爾可夫決策過程 134
16.1 場景引入:自動駕駛 134
16.2 馬爾可夫決策過程的定義 134
16.3 最大化累計獎勵 135
16.4 貝爾曼等式 136
16.5 求解馬爾可夫決策過程的動態規劃算法 136
16.5.1 值疊代 136
16.5.2 策略疊代 138
16.6 強化學習與無模型學習 140
16.6.1 值學習 140
16.6.2 策略梯度 141
16.7 小結 142
第 17章 隨機博弈 143
17.1 場景引入:Goofspiel遊戲 143
17.2 隨機博弈的定義 144
17.3 馬爾可夫假設與非平穩性問題 145
17.4 部分可觀測假設 145
17.5 隨機博弈的解概念 146
17.6 小結 147
第 18章 求解隨機博弈 148
18.1 場景引入:雙人網格化足球遊戲 148
18.2 值疊代 151
18.3 策略疊代 153
18.4 強化學習 156
18.5 小結 158
第 19章 最佳應對學習 160
19.1 場景引入:合作與對抗中的策略選擇 160
19.2 虛擬對弈 160
19.3 雙時間尺度疊代 163
19.4 小結 166
第 20章 聯合動作學習 167
20.1 場景引入:團隊合作中的策略學習 167
20.2 虛擬對弈與值函數估計 168
20.3 虛擬對弈和混合策略 170
20.4 混合策略JAL算法 172
20.5 小結 173
第 21章 理性和收斂性 175
21.1 場景引入:機器人協作問題 175
21.2 理性和收斂性 176
21.3 與納什均衡的關系 176
21.4 PHC算法 177
21.5 WoLF原則與WoLF-PHC算法 182
21.6 小結 186
第五部分 多智能體協作
第 22章 深度強化學習基礎 188
22.1 深度值函數網絡算法 188
22.1.1 值估計非平穩性問題 189
22.1.2 連續經驗相關性問題 190
22.1.3 求解CartPole問題 192
22.1.4 過估計問題 193
22.2 深度策略梯度算法 195
22.2.1 更豐富的策略表達形式 195
22.2.2 可擴展至連續動作空間 196
22.2.3 策略梯度理論 197
22.2.4 實現策略梯度算法 198
22.3 演員-評論家算法 202
22.3.1 優勢演員-評論家算法 204
22.3.2 近端策略優化算法 207
22.4 小結 209
第 23章 多智能體深度強化學習 210
23.1 場景引入:自動駕駛車輛交互 210
23.2 多智能體深度強化學習的核心挑戰 211
23.3 多智能體深度強化學習的訓練範式 212
23.4 小結 214
第 24章 獨立學習 215
24.1 場景引入:交通信號燈控制系統 215
24.2 獨立值學習 215
24.3 獨立策略梯度算法 217
24.4 小結 218
第 25章 多智能體值函數學習 220
25.1 場景引入:資源收集+協作障礙任務 220
25.2 值函數分解 221
25.2.1 個體全局最大性質 222
25.2.2 線性值函數分解 223
25.2.3 單調值函數分解 223
25.3 小結 228
第 26章 多智能體近端策略優化 230
26.1 場景引入:團隊對抗任務 230
26.2 Dec-POMDP 231
26.3 MAPPO的核心思想 231
26.4 MAPPO應用 233
26.4.1 緩解非平穩性問題 233
26.4.2 實現MAPPO 233
26.4.3 MAPPO的代碼示例 235
26.5 小結 247
第 27章 多智能體序列學習 248
27.1 場景引入:合作任務中的多智能體學習 248
27.2 順序更新模式的理論基礎 248
27.2.1 優勢函數分解與順序更新 249
27.2.2 優勢函數分解引理 249
27.2.3 策略單調提升界 250
27.3 A2OP算法 251
27.3.1 A2PO算法的單智能體策略單調提升界 252
27.3.2 A2PO算法的聯合策略單調提升界 253
27.4 代碼實現 254
27.5 MAT算法 259
27.6 小結 268
第 28章 蒙特卡洛樹搜索和群體學習 269
28.1 蒙特卡洛樹搜索 270
28.1.1 自博弈訓練MCTS 271
28.1.2 Tic-tac-Toe 276
28.1.3 AlphaZero 279
28.2 群體學習 280
28.2.1 PSRO算法 280
28.2.2 經驗博弈理論分析 281
28.2.3 元博弈及其求解 281
28.2.4 策略集合擴展 284
28.2.5 PSRO算法收斂性 285
28.3 小結 286

