強化學習

餘欣航

  • 出版商: 電子工業
  • 出版日期: 2024-04-01
  • 定價: $419
  • 售價: 8.5$356
  • 語言: 簡體中文
  • 頁數: 280
  • ISBN: 7121476614
  • ISBN-13: 9787121476617
  • 相關分類: Reinforcement化學 Chemistry
  • 下單後立即進貨 (約4週~6週)

商品描述

本書詳細介紹了強化學習的理論推導、算法細節。全書共12章,包括強化學習概述、馬爾可夫決策過程、退化的強化學習問題、環境已知的強化學習問題、基於價值的強化學習算法、基於策略的強化學習算法、AC型算法、基於模型的強化學習算法等相關知識。本書系統性強、概念清晰,內容簡明通俗。除了側重於理論推導,本書還提供了許多便於讀者理解的例子,以及大量被實踐證明有效的算法技巧,旨在幫助讀者進一步瞭解強化學習領域的相關知識,提升其現實中的工程能力。本書可作為高等院校數學、電腦、人工智能等相關專業的強化學習教材,但需要有機器學習、深度學習等前置課程作為基礎。

目錄大綱

第1章 緒論 1
1.1 強化學習是什麽 1
1.2 強化學習的基本思想 3
1.2.1 從環境中產生數據 3
1.2.2 求解最優策略 5
1.3 強化學習為什麽重要 6
1.4 本書內容介紹 9
參考文獻 10
第2章 馬爾可夫決策過程 11
2.1 馬爾可夫過程 11
2.2 馬爾可夫決策過程的定義 12
2.3 馬爾可夫過程與馬爾可夫決策過程的對比 15
2.4 馬爾可夫決策過程的分類 15
2.4.1 馬爾可夫決策過程是否發生退化 16
2.4.2 環境是否已知 17
2.4.3 環境的確定性與隨機性 18
2.4.4 馬爾可夫決策過程的時齊性 20
2.4.5 狀態與動作的連續性 22
*2.4.6 時間的連續性 23
2.4.7 小結 24
2.5 馬爾可夫決策過程的獎勵函數 25
思考題 26
參考文獻 27
第3章 退化的強化學習問題 28
3.1 盲盒售貨機問題 28
3.2 探索-利用困境 31
3.3 各種不同的探索策略 33
3.3.1 -貪心策略 33
3.3.2 玻爾茲曼探索策略 35
3.3.3 上置信界策略 36
3.4 總結 36
思考題 37
參考文獻 37
第4章 最優控制 38
4.1 基於價值的思想 38
4.1.1 三連棋游戲策略 38
4.1.2 價值的定義 42
4.1.3 基於價值和基於策略 45
4.1.4 小結 46
思考題 47
4.2 動態規劃 47
4.2.1 策略迭代法 47
4.2.2 雅可比迭代法 48
4.2.3 值迭代法 50
4.2.4 軟提升 51
4.2.5 小結 53
思考題 54
4.3 LQR控制 55
4.3.1 基本LQR控制問題 55
4.3.2 LQR控制器 56
*4.3.3 環境隨機的LQR控制問題 59
4.3.4 iLQR控制器 61
4.3.5 實時規劃 63
4.3.6 小結 64
思考題 65
4.4 總結 65
參考文獻 66
第5章 基於價值的強化學習 68
5.1 Q-Learning 68
5.1.1 Q表格 69
5.1.2 產生數據集的方式:探索與利用 69
5.1.3 探索策略 71
5.1.4 使用訓練數據的方法:經驗回放 73
思考題 74
5.2 Sarsa 74
5.2.1 基本Sarsa算法 74
5.2.2 同策略與異策略 76
5.2.3 n步Sarsa 77
5.2.4 -return算法 78
*5.2.5 n步Q-Learning 79
思考題 80
5.3 DQN及其變體 81
5.3.1 固定Q目標結構 81
5.3.2 雙重DQN 84
5.3.3 優先回放機制 86
5.3.4 優勢函數 88
5.3.5 Dueling DQN 90
*5.3.6 Rainbow 92
思考題 94
*5.4 NAF 94
*5.4.1 標準化優勢函數 94
*5.4.2 NAF的訓練 96
5.5 總結:基於價值的強化學習算法 97
參考文獻 98
第6章 策略函數與策略梯度 100
6.1 策略函數與期望回報 100
6.2 無梯度方法 101
6.2.1 增強隨機搜索 102
6.2.2 交叉熵算法 104
6.2.3 進化算法 104
6.3 策略梯度 106
6.3.1 策略網絡的構造 106
6.3.2 策略梯度的計算 108
6.3.3 基本策略梯度算法 111
*6.3.4 動作連續的策略梯度 113
6.4 策略梯度的訓練技巧 114
6.4.1 基準法 114
6.4.2 經驗回放 116
6.4.3 探索策略 118
6.5 總結 119
思考題 120
參考文獻 121
第7章 AC算法 122
7.1 基本AC算法 122
7.1.1 AC算法的出發點 122
7.1.2 化簡策略梯度公式 123
7.1.3 AC算法的基本思想 126
7.1.4 單步更新與回合更新 128
思考題 129
7.2 AC算法的訓練技巧 129
7.2.1 廣義優勢函數估計 129
7.2.2 控制訓練兩個網絡的步調 131
7.2.3 ACER 133
思考題 134
7.3 A3C與A2C 135
7.3.1 並行訓練 135
7.3.2 A3C 137
7.3.3 A2C 140
思考題 141
參考文獻 141
第8章 AC型算法 143
8.1 自然梯度法 143
8.1.1 牛頓法 144
8.1.2 信賴域方法 146
8.1.3 近似點法 146
*8.1.4 自然策略梯度 147
8.2 TRPO與PPO算法 149
8.2.1 策略提升 149
8.2.2 TRPO算法 151
8.2.3 PPO算法 152
8.2.4 TRPO與PPO算法的訓練技巧 155
8.2.5 小結 156
思考題 157
8.3 DDPG 157
8.3.1 動作連續問題的網絡結構 158
8.3.2 從基於價值的角度理解DDPG算法 158
8.3.3 DDPG算法及訓練技巧 159
8.3.4 確定策略下的策略梯度 162
8.3.5 從基於策略的角度理解DDPG算法 163
思考題 165
*8.4 Soft AC 165
8.5 總結:基於策略的算法 168
8.5.1 基於價值和基於策略 169
8.5.2 偏差-方差取捨 170
8.5.3 策略的空間 172
8.5.4 訓練數據的產生與使用 172
8.5.5 小結 173
參考文獻 174
第9章 基於模型的基本思想 175
9.1 MBRL概述 175
9.2 模型是什麽 177
9.2.1 各種模型及其基本用法 178
9.2.2 更多的模型變體 179
9.2.3 模型的一些特點 180
*9.2.4 對模型的理解 185
思考題 188
9.3 如何使用黑盒模型 189
9.3.1 用黑盒模型增廣數據 189
9.3.2 權衡數據成本與準確性 191
9.3.3 黑盒模型的其他用途 193
9.3.4 小結 194
思考題 194
9.4 如何使用白盒模型 195
9.4.1 用白盒模型輔助進行策略優化 195
9.4.2 用白盒模型解最優控制 197
9.4.3 小結 199
思考題 199
參考文獻 200
第10章 基於模型的強化學習進階 202
10.1 如何學習模型 202
10.1.1 讓學習更符合最終目標 202
10.1.2 讓學習本身成為目標 203
10.1.3 以學習作為唯一目標 206
10.1.4 小結 209
思考題 209
10.2 世界模型 210
10.2.1 觀察 210
10.2.2 POMDP 212
10.2.3 為世界建模 214
10.2.4 Dreamer 218
思考題 220
10.3 實時規劃 221
10.3.1 實時規劃的基本思想 221
10.3.2 蒙特卡洛樹搜索 224
10.3.3 模型預測控制 230
思考題 233
10.4 MBRL算法思想總結 233
參考文獻 235
*第11章 連續時間的最優控制 238
11.1 時間連續的最優控制問題 238
11.2 H-J-B方程 239
11.2.1 連續時間的貝爾曼方程 239
*11.2.2 用H-J-B方程求解LQR控制問題 242
11.2.3 總結:關於價值的方程 245
思考題 247
*11.3 變分原理 247
11.3.1 從有窮維空間到無窮維空間 247
11.3.2 變分問題 250
*11.3.3 歐拉-拉格朗日方程 252
*11.3.4 用變分法求解最優控制問題 255
11.3.5 總結:策略的最優化 257
思考題 258
參考文獻 258
*第12章 其他強化學習相關內容 259
12.1 獎勵函數的改造與混合 259
12.2 逆向強化學習 261
12.3 層次強化學習 262
12.4 離線強化學習 264
參考文獻 266

最後瀏覽商品 (20)