強化學習與最優控制 Reinforcement Learning and Optimal Control

[美]德梅萃·P. 博塞克斯(Dimitri P. Bertsekas) 著 李宇超 譯

  • 強化學習與最優控制-preview-1
  • 強化學習與最優控制-preview-2
  • 強化學習與最優控制-preview-3
強化學習與最優控制-preview-1

相關主題

商品描述

本書的目的是考慮大型且具有挑戰性的多階段決策問題,這些問題原則上可以通過動態規劃和**控制來解決,但它們的精確解決方案在計算上是難以處理的。本書討論依賴於近似的解決方法,以產生具有足夠性能的次優策略。這些方法統稱為增強學習,也可以叫做近似動態規劃和神經動態規劃等。 本書的主題產生於**控制和人工智能思想的相互作用。本書的目的之一是探索這兩個領域之間的共同邊界,並架設一座具有任一領域背景的專業人士都可以訪問的橋梁。

目錄大綱

 

目   錄

第 1 章  精確動態規劃   1 

1.1  確定性動態規劃  1 

1.1.1  確定性問題.  1 

1.1.2  動態規劃算法 5 

1.1.3  值空間的近似 9 

1.2  隨機動態規劃  10 

1.3  例子、變形和簡化.  13 

1.3.1  確定性最短路徑問題 14 

1.3.2  確定性離散優化問題 15 

1.3.3  含終止狀態的問題  18 

1.3.4  預報 20 

1.3.5  含不可控狀態組分的問題 21 

1.3.6  不完整的狀態信息和置信狀態 25 

1.3.7  線性二次型最優控制 28 

1.3.8  含未知參數的系統——自適應控制 30 

1.4  強化學習與最優控制——一些術語  32 

1.5  註釋和資源 34 

第 2 章  值空間的近似  36 

2.1  強化學習中的近似方法.  36 

2.1.1  值空間近似的一般問題  39 

2.1.2  離線與在線方法 40 

2.1.3  針對前瞻最小化的基於模型的簡化 40 

2.1.4  無模型的離線 Q 因子近似 41 

2.1.5  基於值空間近似的策略空間近似  43 

2.1.6  值空間的近似何時有效  44 

2.2  多步前瞻. 45 

2.2.1  多步前瞻與滾動時域 46 

2.2.2  多步前瞻與確定性問題  47 

2.3  問題近似. 48

2.3.1  強制解耦  49 

2.3.2  隨機問題中的近似——確定性等價控制 . 54 

2.4  策略前展與策略改進原則.  58 

2.4.1  針對確定性離散優化問題的在線策略前展  59 

2.4.2  隨機策略前展與蒙特卡洛樹搜索  68 

2.4.3  基於專家的策略前展 75 

2.5  針對確定性無窮空間問題的在線策略前展——優化類啟發式方法 76 

2.5.1  模型預測控制  77 

2.5.2  目標管道與約束可控性條件  82 

2.5.3  模型預測控制的變形 85 

2.6  註釋與資源 86 

第 3 章  參數化近似 90 

3.1  近似架構. 90 

3.1.1  基於特徵的線性與非線性參數架構 90 

3.1.2  訓練線性與非線性架構  95 

3.1.3  增量梯度與牛頓法  96 

3.2  神經網絡.  107 

3.2.1  訓練神經網絡.  109 

3.2.2  多層與深度神經網絡 112 

3.3  連續動態規劃近似 115 

3.4  Q 因子參數化近似 116 

3.5  基於分類的策略空間參數化近似 119 

3.6  註釋與資源 122 

第 4 章  無窮階段動態規劃 124 

4.1  無窮階段問題概論 124 

4.2  隨機最短路徑問題 126 

4.3  折扣問題.  133 

4.4  半馬爾可夫折扣問題  137 

4.5  異步分佈式值迭代 141 

4.6  策略迭代.  144 

4.6.1  精確策略迭代.  144 

4.6.2  樂觀與多步前瞻策略迭代 148 

4.6.3  針對 Q 因子的策略迭代 149 

4.7  註釋和資源 151 

4.8  附錄:數學分析. 152 

4.8.1  隨機最短路徑問題的相關證明 152 

4.8.2  折扣問題的相關證明 157 

4.8.3  精確與樂觀策略迭代的收斂性 157

第 5 章  無窮階段強化學習 160 

5.1  值空間近似——性能界 160 

5.1.1  有限前瞻. 162 

5.1.2  策略前展. 164 

5.1.3  近似策略迭代.  167 

5.2  擬合值迭代 169 

5.3  採用參數化近似的基於模擬的策略迭代 173 

5.3.1  自主學習與執行–批評方法  173 

5.3.2  一種基於模型的變體 174 

5.3.3  一種無模型的變體.  176 

5.3.4  實施參數化策略迭代的挑戰.  177 

5.3.5  近似策略迭代的收斂問題——振盪 180 

5.4  Q 學習 183 

5.5  附加方法——時序差分 185 

5.6  精確與近似線性規劃  194 

5.7  策略空間近似.  196 

5.7.1  通過費用優化執行訓練——策略梯度、交叉熵以及隨機搜索方法  199 

5.7.2  基於專家的監督學習 207 

5.7.3  近似策略迭代、策略前展與策略空間近似.  208 

5.8  註釋和資源 212 

5.9  附錄:數學分析. 216 

5.9.1  多步前瞻的性能界.  216 

5.9.2  策略前展的性能界.  218 

5.9.3  近似策略迭代的性能界.  220 

第 6 章  聚集  223 

6.1  包含代表狀態的聚集  223 

6.1.1  連續控制空間離散化 227 

6.1.2  連續狀態空間——部分可觀察馬爾可夫決策問題的離散化 228 

6.2  包含代表特徵的聚集  230 

6.2.1  硬聚集與誤差界 232 

6.2.2  採用特徵的聚集 234 

6.3  求解聚集問題的方法  237 

6.3.1  基於模擬的策略迭代 238 

6.3.2  基於模擬的值迭代.  240 

6.4  包含神經網絡的基於特徵的聚集 241 

6.5  偏心聚集.  242 

6.6  註釋和資源 244 

6.7  附錄:數學分析. 247 

參考文獻 250