強化學習的數學原理

趙世鈺

  • 強化學習的數學原理-preview-1
  • 強化學習的數學原理-preview-2
  • 強化學習的數學原理-preview-3
強化學習的數學原理-preview-1

相關主題

商品描述

"本書將從強化學習最基本的概念開始介紹,將介紹基礎的分析工具包括貝爾曼公式和貝爾曼**公式,之後會推廣到基於模型的和無模型的強化學習算法,最後會推廣到基於函數逼近的強化學習方法。本書強調從數學的角度接引入概念、分析問題、分析算法。並不強調算法的編程實現,因為目前已經有很多這方面的書籍,本書將不再重復造輪子。 本書面向對強化學習感興趣的本科生、研究生、研究人員和企業研究所從業者。 它不需要讀者有任何關於強化學習的背景,因為它會從最基本的概念開始介紹。如果讀者已經有一些 強化學習的背景,這本書也可以幫助他們更深入地理解一些問題或者帶來新的視角。 本書要求讀者具備一定的概率論和線性代數知識。本書的附錄中包含了一些必需的數學基礎知識。"

目錄大綱

第 1章基本概念 .............................................................................................. 1 

1.1網格世界例子 ...................................................................................... 2 

1.2狀態和動作 ......................................................................................... 2 

1.3狀態轉移 ............................................................................................. 3 

1.4策略 ................................................................................................... 5 

1.5獎勵 ................................................................................................... 7 

1.6軌跡、回報、回合 ............................................................................... 9 

1.7馬爾可夫決策過程 ............................................................................. 11 

1.8總結 ................................................................................................. 13 

1.9問答 ................................................................................................. 13

第 2章狀態值與貝爾曼方程 ........................................................................... 15 

2.1啟發示例 1:為什麽回報很重要?........................................................ 16 

2.2啟發示例 2:如何計算回報?............................................................... 17 

2.3狀態值 .............................................................................................. 19 

2.4貝爾曼方程 ....................................................................................... 20 

2.5示例 ................................................................................................. 22 

2.6矩陣向量形式 .................................................................................... 25 

2.7求解狀態值 ....................................................................................... 27 

2.7.1方法 1:解析解 ....................................................................... 27 

2.7.2方法 2:數值解 ....................................................................... 27 

2.7.3示例 ....................................................................................... 28 

2.8動作值 .............................................................................................. 30 

2.8.1示例 ....................................................................................... 31 

2.8.2基於動作值的貝爾曼方程 ......................................................... 32 

2.9總結 

................................................................................................. 32 

2.10問答 

................................................................................................ 33

第 3章最優狀態值與貝爾曼最優方程 .............................................................. 35 

3.

1啟發示例:如何改進策略?................................................................. 36 

3.

2最優狀態值和最優策略 ....................................................................... 37 

3.

3貝爾曼最優方程 ................................................................................. 38 

3.

3.1方程右側的優化問題 ............................................................... 39 

3.3.2矩陣

-向量形式 ........................................................................ 40 

3.

3.3壓縮映射定理 ......................................................................... 41 

3.

3.4方程右側函數的壓縮性質 ......................................................... 44 

3.

4從貝爾曼最優方程得到最優策略 ......................................................... 46 

3.

5影響最優策略的因素 .......................................................................... 49 

3.6總結 

................................................................................................. 54 

3.7問答 

................................................................................................. 54

第 4章值迭代與策略迭代 ............................................................................... 57 

4.1值迭代算法 

....................................................................................... 58 

4.

1.1展開形式和實現細節 ............................................................... 59 

4.1.2示例 

....................................................................................... 59 

4.2策略迭代算法 

.................................................................................... 62 

4.2.1算法概述 

................................................................................ 62 

4.

2.2算法的展開形式 ...................................................................... 65 

4.2.3示例 

....................................................................................... 66 

4.

3截斷策略迭代算法 ............................................................................. 68 

4.

3.1對比值迭代與策略迭代 ............................................................ 68 

4.

3.2截斷策略迭代算法 ................................................................... 71 

4.4總結 

................................................................................................. 73 

4.5問答 

................................................................................................. 73

5.

1啟發示例:期望值估計 ....................................................................... 78 

5.2 

MC Basic:最簡單的基於蒙特卡羅的算法 ........................................... 80 

5.

2.1將策略迭代算法轉換為無需模型 ............................................... 80 

5.2.2 

MC Basic算法 ........................................................................ 81 

5.2.3示例 

....................................................................................... 82 

5.3 

MC Exploring Starts算法 .................................................................. 86 

5.

3.1更高效地利用樣本 ................................................................... 86 

5.

3.2更高效地更新策略 ................................................................... 87 

5.3.3算法描述 

................................................................................ 87 

5.4 

MC .-Greedy算法 ............................................................................. 88 

5.4.1 

.-Greedy策略 ......................................................................... 89 

5.4.2算法描述 

................................................................................ 89 

5.4.3示例 

....................................................................................... 91 

5.

5探索與利用:以 .-Greedy策略為例 ...................................................... 91 

5.6總結 

................................................................................................. 96 

5.7問答 

................................................................................................. 96

第 5章蒙特卡羅方法 ..................................................................................... 77 

第 6章隨機近似算法 ..................................................................................... 99 

6.

1啟發示例:期望值估計 ...................................................................... 100 

6.2羅賓斯

-門羅算法 ............................................................................... 101 

6.2.1收斂性質 

............................................................................... 103 

6.

2.2在期望值估計問題中的應用 .................................................... 106 

6.3 

Dvoretzky定理 ................................................................................. 107 

6.3.1 

Dvoretzky定理的證明 ............................................................ 108 

6.

3.2應用於分析期望值估計算法 .................................................... 109 

6.

3.3應用於證明羅賓斯-門羅定理 ................................................... 110 

6.3.4 

Dvoretzky定理的推廣 ............................................................ 111 

6.4隨機梯度下降 

................................................................................... 112 

6.

4.1應用於期望值估計 .................................................................. 113 

6.

4.2隨機梯度下降的收斂模式 ........................................................ 114 

6.

4.3隨機梯度下降的另一種描述 .................................................... 116 

6.

4.4小批量梯度下降 ..................................................................... 117 

6.

4.5隨機梯度下降的收斂性 ........................................................... 118 

6.5總結 

................................................................................................ 120 

6.6問答 

................................................................................................ 120

第 7章時序差分方法 .................................................................................... 123 

7.

1狀態值估計:最基礎的時序差分算法 .................................................. 124 

7.1.1算法描述 

............................................................................... 124 

7.1.2性質分析 

............................................................................... 126 

7.

1.3收斂性證明 ............................................................................ 127 

7.2動作值估計:

Sarsa ........................................................................... 130 

7.2.1算法描述 

............................................................................... 131 

7.

2.2學習最優策略 ........................................................................ 132 

7.3動作值估計:

n-Step Sarsa................................................................. 135 

7.

4最優動作值估計:Q-learning ............................................................. 137 

7.4.1算法描述 

............................................................................... 137 

7.4.2 

Off-policy和 On-policy ........................................................... 138 

7.4.3算法實現 

............................................................................... 140 

7.4.4示例 

...................................................................................... 141 

7.

5時序差分算法的統一框架 .................................................................. 142 

7.6總結 

................................................................................................ 145 

7.7問答 

................................................................................................ 145

第 8章值函數方法 ........................................................................................ 149 

8.

1價值表示:從表格到函數 .................................................................. 150 

8.

2基於值函數的時序差分算法:狀態值估計 ........................................... 153 

8.2.1目標函數 

............................................................................... 154 

8.2.2優化算法 

............................................................................... 159 

8.

2.3選擇值函數 ............................................................................ 160 

8.2.4示例 

...................................................................................... 161 

8.2.5理論分析 

............................................................................... 165 

8.

3基於值函數的時序差分:動作值估計 .................................................. 175 

8.

3.1基於值函數的 Sarsa ................................................................ 176 

8.

3.2基於值函數的 Q-learning ........................................................ 177 

8.4深度 

Q-learning................................................................................. 178 

8.4.1算法描述 ............................................................................... 179 

8.4.2示例 

...................................................................................... 180 

8.5總結 

................................................................................................ 183 

8.6問答 

................................................................................................ 183

第 9章策略梯度方法 .................................................................................... 187 

9.

1策略表示:從表格到函數 .................................................................. 188 

9.

2目標函數:定義最優策略 .................................................................. 189 

9.

3目標函數的梯度 ................................................................................ 194 

9.

3.1推導策略梯度:有折扣的情況 ................................................. 195 

9.

3.2推導策略梯度:無折扣的情況 ................................................. 200 

9.

4蒙特卡羅策略梯度(REINFORCE)................................................... 206 

9.5總結 

................................................................................................ 208 

9.6問答 

................................................................................................ 209

第 10章演員-評論家方法 .............................................................................. 211 

10.

1最簡單的演員-評論家算法:QAC ..................................................... 212 

10.2優勢演員

-評論家 ............................................................................. 213 

10.

2.1基準不變性 .......................................................................... 213 

10.

2.2算法描述 ............................................................................. 215 

10.3異策略演員

-評論家 .......................................................................... 217 

10.

3.1重要性採樣 .......................................................................... 217 

10.3.2 

Off-policy策略梯度定理 ........................................................ 220 

10.

3.3算法描述 ............................................................................. 221 

10.4確定性演員

-評論家 .......................................................................... 223 

10.

4.1確定性策略梯度定理 ............................................................. 223 

10.

4.2算法描述 ............................................................................. 229 

10.5總結 

............................................................................................... 230 

10.6問答 

............................................................................................... 231

附錄 A概率論基礎 ...................................................................................... 233

附錄 B測度概率論 ....................................................................................... 239 

附錄 C序列的收斂性 ................................................................................... 247 

C.1確定性序列的收斂性 ........................................................................ 248 

C.2隨機序列的收斂性 ............................................................................ 250 附錄 D梯度下降方法 ................................................................................... 255 符號 ............................................................................................................... 261

索引 ............................................................................................................... 262 參考文獻 ........................................................................................................ 265