強化學習的數學原理
趙世鈺
- 出版商: 清華大學
- 出版日期: 2025-04-01
- 售價: $648
- 語言: 簡體中文
- ISBN: 7302685673
- ISBN-13: 9787302685678
-
相關分類:
Reinforcement、化學 Chemistry
下單後立即進貨 (約4週~6週)
相關主題
商品描述
目錄大綱
第 1章基本概念 .............................................................................................. 1
1.1網格世界例子 ...................................................................................... 2
1.2狀態和動作 ......................................................................................... 2
1.3狀態轉移 ............................................................................................. 3
1.4策略 ................................................................................................... 5
1.5獎勵 ................................................................................................... 7
1.6軌跡、回報、回合 ............................................................................... 9
1.7馬爾可夫決策過程 ............................................................................. 11
1.8總結 ................................................................................................. 13
1.9問答 ................................................................................................. 13
第 2章狀態值與貝爾曼方程 ........................................................................... 15
2.1啟發示例 1:為什麽回報很重要?........................................................ 16
2.2啟發示例 2:如何計算回報?............................................................... 17
2.3狀態值 .............................................................................................. 19
2.4貝爾曼方程 ....................................................................................... 20
2.5示例 ................................................................................................. 22
2.6矩陣向量形式 .................................................................................... 25
2.7求解狀態值 ....................................................................................... 27
2.7.1方法 1:解析解 ....................................................................... 27
2.7.2方法 2:數值解 ....................................................................... 27
2.7.3示例 ....................................................................................... 28
2.8動作值 .............................................................................................. 30
2.8.1示例 ....................................................................................... 31
2.8.2基於動作值的貝爾曼方程 ......................................................... 32
2.9總結
................................................................................................. 32
2.10問答
................................................................................................ 33
第 3章最優狀態值與貝爾曼最優方程 .............................................................. 35
3.
1啟發示例:如何改進策略?................................................................. 36
3.
2最優狀態值和最優策略 ....................................................................... 37
3.
3貝爾曼最優方程 ................................................................................. 38
3.
3.1方程右側的優化問題 ............................................................... 39
3.3.2矩陣
-向量形式 ........................................................................ 40
3.
3.3壓縮映射定理 ......................................................................... 41
3.
3.4方程右側函數的壓縮性質 ......................................................... 44
3.
4從貝爾曼最優方程得到最優策略 ......................................................... 46
3.
5影響最優策略的因素 .......................................................................... 49
3.6總結
................................................................................................. 54
3.7問答
................................................................................................. 54
第 4章值迭代與策略迭代 ............................................................................... 57
4.1值迭代算法
....................................................................................... 58
4.
1.1展開形式和實現細節 ............................................................... 59
4.1.2示例
....................................................................................... 59
4.2策略迭代算法
.................................................................................... 62
4.2.1算法概述
................................................................................ 62
4.
2.2算法的展開形式 ...................................................................... 65
4.2.3示例
....................................................................................... 66
4.
3截斷策略迭代算法 ............................................................................. 68
4.
3.1對比值迭代與策略迭代 ............................................................ 68
4.
3.2截斷策略迭代算法 ................................................................... 71
4.4總結
................................................................................................. 73
4.5問答
................................................................................................. 73
5.
1啟發示例:期望值估計 ....................................................................... 78
5.2
MC Basic:最簡單的基於蒙特卡羅的算法 ........................................... 80
5.
2.1將策略迭代算法轉換為無需模型 ............................................... 80
5.2.2
MC Basic算法 ........................................................................ 81
5.2.3示例
....................................................................................... 82
5.3
MC Exploring Starts算法 .................................................................. 86
5.
3.1更高效地利用樣本 ................................................................... 86
5.
3.2更高效地更新策略 ................................................................... 87
5.3.3算法描述
................................................................................ 87
5.4
MC .-Greedy算法 ............................................................................. 88
5.4.1
.-Greedy策略 ......................................................................... 89
5.4.2算法描述
................................................................................ 89
5.4.3示例
....................................................................................... 91
5.
5探索與利用:以 .-Greedy策略為例 ...................................................... 91
5.6總結
................................................................................................. 96
5.7問答
................................................................................................. 96
第 5章蒙特卡羅方法 ..................................................................................... 77
第 6章隨機近似算法 ..................................................................................... 99
6.
1啟發示例:期望值估計 ...................................................................... 100
6.2羅賓斯
-門羅算法 ............................................................................... 101
6.2.1收斂性質
............................................................................... 103
6.
2.2在期望值估計問題中的應用 .................................................... 106
6.3
Dvoretzky定理 ................................................................................. 107
6.3.1
Dvoretzky定理的證明 ............................................................ 108
6.
3.2應用於分析期望值估計算法 .................................................... 109
6.
3.3應用於證明羅賓斯-門羅定理 ................................................... 110
6.3.4
Dvoretzky定理的推廣 ............................................................ 111
6.4隨機梯度下降
................................................................................... 112
6.
4.1應用於期望值估計 .................................................................. 113
6.
4.2隨機梯度下降的收斂模式 ........................................................ 114
6.
4.3隨機梯度下降的另一種描述 .................................................... 116
6.
4.4小批量梯度下降 ..................................................................... 117
6.
4.5隨機梯度下降的收斂性 ........................................................... 118
6.5總結
................................................................................................ 120
6.6問答
................................................................................................ 120
第 7章時序差分方法 .................................................................................... 123
7.
1狀態值估計:最基礎的時序差分算法 .................................................. 124
7.1.1算法描述
............................................................................... 124
7.1.2性質分析
............................................................................... 126
7.
1.3收斂性證明 ............................................................................ 127
7.2動作值估計:
Sarsa ........................................................................... 130
7.2.1算法描述
............................................................................... 131
7.
2.2學習最優策略 ........................................................................ 132
7.3動作值估計:
n-Step Sarsa................................................................. 135
7.
4最優動作值估計:Q-learning ............................................................. 137
7.4.1算法描述
............................................................................... 137
7.4.2
Off-policy和 On-policy ........................................................... 138
7.4.3算法實現
............................................................................... 140
7.4.4示例
...................................................................................... 141
7.
5時序差分算法的統一框架 .................................................................. 142
7.6總結
................................................................................................ 145
7.7問答
................................................................................................ 145
第 8章值函數方法 ........................................................................................ 149
8.
1價值表示:從表格到函數 .................................................................. 150
8.
2基於值函數的時序差分算法:狀態值估計 ........................................... 153
8.2.1目標函數
............................................................................... 154
8.2.2優化算法
............................................................................... 159
8.
2.3選擇值函數 ............................................................................ 160
8.2.4示例
...................................................................................... 161
8.2.5理論分析
............................................................................... 165
8.
3基於值函數的時序差分:動作值估計 .................................................. 175
8.
3.1基於值函數的 Sarsa ................................................................ 176
8.
3.2基於值函數的 Q-learning ........................................................ 177
8.4深度
Q-learning................................................................................. 178
8.4.1算法描述 ............................................................................... 179
8.4.2示例
...................................................................................... 180
8.5總結
................................................................................................ 183
8.6問答
................................................................................................ 183
第 9章策略梯度方法 .................................................................................... 187
9.
1策略表示:從表格到函數 .................................................................. 188
9.
2目標函數:定義最優策略 .................................................................. 189
9.
3目標函數的梯度 ................................................................................ 194
9.
3.1推導策略梯度:有折扣的情況 ................................................. 195
9.
3.2推導策略梯度:無折扣的情況 ................................................. 200
9.
4蒙特卡羅策略梯度(REINFORCE)................................................... 206
9.5總結
................................................................................................ 208
9.6問答
................................................................................................ 209
第 10章演員-評論家方法 .............................................................................. 211
10.
1最簡單的演員-評論家算法:QAC ..................................................... 212
10.2優勢演員
-評論家 ............................................................................. 213
10.
2.1基準不變性 .......................................................................... 213
10.
2.2算法描述 ............................................................................. 215
10.3異策略演員
-評論家 .......................................................................... 217
10.
3.1重要性採樣 .......................................................................... 217
10.3.2
Off-policy策略梯度定理 ........................................................ 220
10.
3.3算法描述 ............................................................................. 221
10.4確定性演員
-評論家 .......................................................................... 223
10.
4.1確定性策略梯度定理 ............................................................. 223
10.
4.2算法描述 ............................................................................. 229
10.5總結
............................................................................................... 230
10.6問答
............................................................................................... 231
附錄 A概率論基礎 ...................................................................................... 233
附錄 B測度概率論 ....................................................................................... 239
附錄 C序列的收斂性 ................................................................................... 247
C.1確定性序列的收斂性 ........................................................................ 248
C.2隨機序列的收斂性 ............................................................................ 250 附錄 D梯度下降方法 ................................................................................... 255 符號 ............................................................................................................... 261
索引 ............................................................................................................... 262 參考文獻 ........................................................................................................ 265