控制系統與強化學習

相關主題

商品描述

一個高中生可以創建深度的Q-learning代碼來控制她的機器人,卻不瞭解 "深度 "或 "Q "的含義,也不知道為什麽代碼有時會失敗。本書在以具有微積分和矩陣代數背景的學生可以理解的方式,解釋強化學習和化控制背後的科學。本書的一個獨重點是算法設計,以獲得學習算法的快收斂速度,以及對強化學習有時失敗的原因的洞察。一開始就避開了高級隨機過程理論,用更直觀的確定性探測來代替學習的隨機探索。一旦理解了這些思想,掌握植根於隨機控制的技術就不難了。這些主題在本書的第二分有所涉及,從馬爾科夫鏈理論開始,以對強化學習的行為者批評方法的全新審視結束。

目錄大綱

譯者序
前言

第1章引言1
1.1本書涵蓋的內容1
1.2未深入探討的內容4
1.3參考資料5
第一分無噪聲情況下的基礎知識
第2章控制理論概述8
2.1身邊的控制問題8
2.2該怎麽辦10
2.3狀態空間模型11
2.3.1充分統計量與非線性狀態空間模型11
2.3.2狀態增廣和學習12
2.3.3線性狀態空間模型13
2.3.4向牛頓和萊布尼茨敬15
2.4穩定性和性能16
2.4.1總成本16
2.4.2平衡點的穩定性17
2.4.3李雅普諾夫函數18
2.4.4技術證明21
2.4.5連續時間域的幾何22
2.4.6線性狀態空間模型24
2.5展望未來:從控制理論到強化學習28
2.5.1演員-家29
2.5.2時間差分29
2.5.3老虎機與探索30
2.6如何忽略噪聲31
2.7示例31
2.7.1華爾街31
2.7.2山地車33
2.7.3磁球35
2.7.4倒立擺37
2.7.5Pendubot和Acrobot38
2.7.6合作賽艇40
2.8習題41
2.9註記49
第3章控制50
3.1總成本的值函數50
3.2貝爾曼方程51
3.2.1值疊代53
3.2.2策略改進55
3.2.3佩龍-弗羅貝尼烏斯定理:簡單介紹*55
3.3各種變形58
3.3.1折扣成本58
3.3.2短路徑問題58
3.3.3有域60
3.3.4模型預測控制61
3.4逆動態規劃61
3.5貝爾曼方程是一個線性規劃63
3.6線性二次調節器64
3.7再向前看一些66
3.8連續時間控制*67
3.9示例69
3.9.1山地車69
3.9.2蜘蛛和蒼蠅71
3.9.3資源爭奪與不穩定性72
3.9.4求解HJB方程75
3.10習題77
3.11註記83
第4章算法設計的ODE方法84
4.1常微分方程84
4.2回顧歐拉方法87
4.3牛頓-拉弗森流88
4.4化90
4.4.1凸性的作用91
4.4.2Polyakojasiewicz條件93
4.4.3歐拉近似93
4.4.4含約束的化95
4.5擬隨機近似98
4.5.1擬蒙卡羅方法100
4.5.2系統辨識101
4.5.3近似策略改進103
4.5.4QSA理論簡介107
4.5.5恆定增益算法111
4.5.6Zap QSA113
4.6無梯度化113
4.6.1模擬火114
4.6.2算法菜單115
4.7擬策略梯度算法118
4.7.1山地車118
4.7.2LQR121
4.7.3高維的情況123
4.8ODE的穩定性*123
4.8.1伽羅瓦不等式123
4.8.2李雅普諾夫函數125
4.8.3梯度流126
4.8.4在∞處的ODE129
4.9QSA的收斂性理論*132
4.9.1主要結果和一些見解133
4.9.2ODE的整體性136
4.9.3穩定性判據140
4.9.4確定性馬爾可夫模型144
4.9.5收斂速度145
4.10習題150
4.11註記156
4.11.1算法設計的ODE 方法156
4.11.2化157
4.11.3QSA157
4.11.4SGD與值搜索控制158
第5章值函數近似161
5.1函數近似架構162
5.1.1基於訓練數據的函數近似163
5.1.2線性函數近似164
5.1.3經網絡165
5.1.4核166
5.1.5我們完成了嗎168
5.2探索和ODE近似169
5.3TD學習和線性回歸172
5.3.1既定策略的時間差分172
5.3.2小二乘和線性回歸173
5.3.3遞歸LSTD和Zap176
5.4投影貝爾曼方程和TD算法177
5.4.1伽遼金鬆弛和投影178
5.4.2TD(λ)學習178
5.4.3投影貝爾曼算子和Q學習182
5.4.4GQ學習183
5.4.5批處理方法和DQN184
5.5凸Q學習186
5.5.1有限維函數類的凸Q學習187
5.5.2BCQL和核方法190
5.6連續時間下的Q學習*191
5.7對偶性*193
5.8習題195
5.9註記199
5.9.1機器學習199
5.9.2TD學習199
5.9.3Q學習200
第二分強化學習與隨機控制
第6章馬爾可夫鏈204
6.1馬爾可夫模型是狀態空間模型204
6.2簡單示例207
6.3譜和遍歷性210
6.4隨機向前看一些213
6.4.1家方法213
6.4.2演員方法214
6.5泊松方程214
6.6李雅普諾夫函數216
6.6.1平均成本217
6.6.2折扣成本218
6.7模擬:置信邊界和控制變量220
6.7.1有限的漸近統計量220
6.7.2漸近方差和混合時間222
6.7.3樣本覆雜度224
6.7.4一個簡單示例224
6.7.5通過設計方差226
6.8靈敏度和純演員方法228
6.9一般馬爾可夫鏈的遍歷理論*230
6.9.1分類230
6.9.2李雅普諾夫理論231
6.10習題233
6.11註記241
第7章隨機控制242
7.1MDP:簡要介紹242
7.2流體模型近似245
7.3隊列248
7.4速度縮放250
7.4.1流體模型251
7.4.2計算和完整性252
7.4.3完整性詳解254
7.5LQG255
7.5.1流體模型動力學255
7.5.2DP方程256
7.5.3分可觀測257
7.6一個排隊遊戲258
7.7用分信息控制漫遊車261
7.8老虎機263
7.8.1老虎機模型264
7.8.2貝葉斯老虎機264
7.8.3天真的樂觀可以成功267
7.9習題268
7.10註記276
第8章隨機近似277
8.1漸近協方差278
8.2主題與路線圖279
8.2.1ODE設計280
8.2.2ODE近似281
8.2.3步長選擇283
8.2.4多時間尺度284
8.2.5算法性能285
8.2.6漸近與瞬態性能287
8.3示例289
8.3.1蒙卡羅289
8.3.2隨機梯度下降290
8.3.3經驗風險小化292
8.4算法設計示例293
8.4.1增益選擇293
8.4.2方差公式294
8.4.3模擬295
8.5Zap隨機近似297
8.5.1近似牛頓-拉弗森流297
8.5.2Zap零298
8.5.3隨機牛頓-拉弗森算法299
8.6買方責任自負300
8.6.1條件數災難300
8.6.2馬爾可夫記憶的災難302
8.7一些理論*303
8.7.1穩定性和收斂性304
8.7.2線性化和收斂速率304
8.7.3PolyakRuppert平均306
8.8習題310
8.9註記311
8.9.1SA和RL311
8.9.2穩定性312
8.9.3漸近統計312
8.9.4更少的漸近統計312
第9章時間差分法314
9.1策略改進315
9.1.1既定策略值函數和DP方程315
9.1.2PIA與Q函數316
9.1.3勢函數317
9.2函數逼近和光滑318
9.2.1條件期望和投影319
9.2.2線性獨立性320
9.3損失函數321
9.3.1均方貝爾曼誤差321
9.3.2均方值函數誤差322
9.3.3投影貝爾曼誤差323
9.4TD(λ)學習323
9.4.1線性函數類323
9.4.2非線性參數化325
9.5回歸Q函數326
9.5.1探索326
9.5.2異同策略算法327
9.5.3相對TD(λ)329
9.5.4勢函數的TD(λ)332
9.6沃金斯的Q學習333
9.6.1控制要素333
9.6.2沃金斯算法334
9.6.3探索335
9.6.4ODE分析336
9.6.5方差問題339
9.7相對Q學習340
9.7.1增益選擇341
9.7.2誠實的結論342
9.8GQ和Zap343
9.8.1GQ學習344
9.8.2Zap Q學習346
9.9技術證明*349
9.9.1勢函數349
9.9.2TD穩定性理論349
9.10習題353
9.11註記354
9.11.1時間差分方法354
9.11.2Q學習354
9.11.3GQ和Zap355
9.11.4凸Q學習356
第10章搭建舞臺,演員回歸357
10.1舞臺、投影和伴隨矩陣358
10.1.1線性算子和伴隨矩陣358
10.1.2伴隨矩陣和資格向量359
10.1.3加權範數和加權資格向量360
10.2勢函數與新息362
10.2.1勢函數的投影及其值362
10.2.2加權範數363
10.3再生364
10.4平均成本及其他指標365
10.4.1其他指標365
10.4.2平均成本算法368
10.5集結演員370
10.5.1平均成本的演員-家370
10.5.2一些警告和補救措施372
10.6無偏SGD373
10.7勢函數和控制變量375
10.7.1通過勢函數減少方差375
10.7.2更好的勢函數376
10.8自然梯度和Zap377
10.9技術證明*379
10.10註記382
10.10.1伴隨矩陣和TD學習382
10.10.2演員-家方法383
10.10.3一些384
10.10.4費歇耳信息384
附錄
附錄A數學背景386
附錄B馬爾可夫決策過程392
附錄C分觀測和置信狀態399

參考文獻405