深度強化學習--算法原理與金融實踐入門

謝文傑、周煒星

  • 出版商: 清華大學
  • 出版日期: 2023-09-01
  • 售價: $414
  • 貴賓價: 9.5$393
  • 語言: 簡體中文
  • 頁數: 245
  • 裝訂: 平裝
  • ISBN: 7302641064
  • ISBN-13: 9787302641063
  • 相關分類: Reinforcement化學 Chemistry
  • 立即出貨 (庫存 < 4)

  • 深度強化學習--算法原理與金融實踐入門-preview-1
  • 深度強化學習--算法原理與金融實踐入門-preview-2
  • 深度強化學習--算法原理與金融實踐入門-preview-3
深度強化學習--算法原理與金融實踐入門-preview-1

買這商品的人也買了...

商品描述

深度強化學習是人工智能和機器學習的重要分支領域,有著廣泛應用,如AlphaGo和ChatGPT。本書作為該領域的入門教材,在內容上盡可能覆蓋深度強化學習的基礎知識和經典算法。全書共10章,大致分為4部分:第1部分(第1~2章)介紹深度強化學習背景(智能決策、人工智能和機器學習);第2部分(第3~4章)介紹深度強化學習基礎知識(深度學習和強化學習);第3部分(第5~9章)介紹深度強化學習經典算法(DQN、AC、DDPG等);第4部分(第10章)為總結和展望。每章都附有習題並介紹了相關閱讀材料,以便有興趣的讀者進一步深入探索。 本書可作為高等院校電腦、智能金融及相關專業的本科生或研究生教材,也可供對深度強化學習感興趣的研究人員和工程技術人員閱讀參考。

目錄大綱

目錄

第 1章智能決策與復雜系統 ......................................................... 1 

1.1智能決策.....................................................................1 

1.1.1智能決策簡介 ......................................................... 1 

1.1.2復雜金融系統中的智能決策 ........................................... 2 

1.2復雜系統.....................................................................4 

1.2.1復雜性科學 ........................................................... 4 

1.2.2復雜系統定義 ......................................................... 6 

1.2.3復雜系統類型 ......................................................... 6 

1.2.4復雜系統研究 ......................................................... 8 

1.3復雜環境特徵 ...............................................................13 

1.3.1完全可觀察的和部分可觀察的環境 ................................... 13 

1.3.2單智能體和多智能體 ................................................. 14 

1.3.3確定的和隨機的環境 ................................................. 14 

1.3.4片段式和延續式環境 ................................................. 15 

1.3.5靜態和動態環境 ..................................................... 15 

1.3.6離散和連續環境 ..................................................... 16 

1.3.7已知和未知環境 ..................................................... 16 

1.4復雜環境建模 ...............................................................17 

1.5智能體建模 ................................................................. 21 

1.5.1典型決策系統模型框架 ...............................................21 

1.5.2智能體建模框架 ..................................................... 21 

1.6智能決策系統建模 .......................................................... 24 

1.6.1問題提煉 ............................................................ 24 

1.6.2數據採集 ............................................................ 25 

1.6.3模型構建 ............................................................ 26 

1.6.4算法實現 ............................................................ 26 

1.6.5模型訓練 ............................................................ 26 

1.6.6模型驗證 ............................................................ 26 

1.6.7模型改進 ............................................................ 27 

1.6.8模型運用 ............................................................ 27 

1.7應用實踐 ................................................................... 27 

 

第 1章習題 ...................................................................... 29

第 2章人工智能與機器學習 ........................................................ 30 

2.1人工智能簡介 ...............................................................30 

2.1.1人工智能 +農業 .................................................... 31 

2.1.2人工智能 +教育 .................................................... 31 

2.1.3人工智能 +工業 .................................................... 31 

2.1.4人工智能 +金融 .................................................... 32 

2.2人工智能前沿 ...............................................................32 

2.3人工智能簡史 ...............................................................33 

2.4人工智能流派 ...............................................................34 

2.4.1符號主義學派 ........................................................35 

2.4.2聯結主義學派 ........................................................36 

2.4.3行為主義學派 ........................................................37 

2.5人工智能基礎 ...............................................................37 

2.5.1運籌學...............................................................38 

2.5.2最優化控制 .......................................................... 38 

2.5.3交叉學科 ............................................................ 39 

2.5.4人工智能和機器學習相關會議 ........................................ 39 

2.6機器學習分類 ...............................................................39 

2.6.1監督學習 ............................................................ 41 

2.6.2無監督學習 .......................................................... 41 

2.6.3強化學習 ............................................................ 43 

2.7機器學習基礎 ...............................................................44 

2.7.1激活函數 ............................................................ 44 

2.7.2損失函數 ............................................................ 46 

2.7.3優化算法 ............................................................ 50 

2.8應用實踐 ................................................................... 57 第 2章習題 ...................................................................... 58 第 3章深度學習入門 ...............................................................59 

3.1深度學習簡介 ...............................................................59 

3.1.1深度學習與人工智能 ................................................. 59 

3.1.2深度學習與機器學習 ................................................. 59 

3.1.3深度學習與表示學習 ................................................. 61 

3.2深度神經網絡 ...............................................................62 

3.2.1深度神經網絡構建 ................................................... 62 

3.2.2深度神經網絡實例 ................................................... 64 

3.3深度捲積神經網絡 .......................................................... 68 

目錄 

3.4深度循環神經網絡 .......................................................... 69 

3.5深度圖神經網絡.............................................................71 

3.5.1圖神經網絡簡介 ..................................................... 72 

3.5.2圖神經網絡聚合函數 ................................................. 72 

3.5.3圖神經網絡更新函數 ................................................. 72 

3.5.4圖神經網絡池化函數 ................................................. 73 

3.6深度神經網絡訓練 .......................................................... 73 

3.6.1模型訓練挑戰 ........................................................73 

3.6.2數據預處理 .......................................................... 74 

3.6.3參數初始化 .......................................................... 75 

3.6.4學習率調整 .......................................................... 76 

3.6.5梯度優化算法 ........................................................77 

3.6.6超參數優化 .......................................................... 78 

3.6.7正則化技術 .......................................................... 80 

3.7應用實踐 ................................................................... 80 

3.7.1 TensorFlow安裝.....................................................81 

3.7.2 TensorFlow基本框架 ................................................ 81 

3.7.3 TensorBoard.........................................................82 

3.7.4 scikit-learn .......................................................... 82 

3.7.5 Keras................................................................83 第 3章習題 ...................................................................... 83 第 4章強化學習入門 ...............................................................84 

4.1強化學習簡介 ...............................................................84 

4.2馬爾可夫決策過程 .......................................................... 86 

4.3動態規劃方法 ...............................................................87 

4.3.1策略函數 ............................................................ 88 

4.3.2獎勵函數 ............................................................ 88 

4.3.3累積回報 ............................................................ 89 

4.3.4狀態值函數 .......................................................... 89 

4.3.5狀態-動作值函數 .....................................................90 

4.3.6狀態-動作值函數與狀態值函數的關系 ................................ 90 

4.3.7 Bellman方程 ........................................................ 91 

4.3.8策略迭代算法 ........................................................92 

4.3.9值函數迭代算法 ..................................................... 95 

4.4蒙特卡洛方法 ...............................................................97 

4.4.1蒙特卡洛估計 ........................................................97 

4.4.2蒙特卡洛強化學習算法偽代碼 .......................................100 

· VII · 

 

4.5時序差分學習 ..............................................................100 

4.5.1時序差分學習算法 .................................................. 100 

4.5.2時序差分學習算法、動態規劃和蒙特卡洛算法比較 .................. 101 

4.5.3 Q-learning..........................................................102 

4.5.4 SARSA.............................................................104 

4.6策略梯度方法 ..............................................................105 

4.7應用實踐 .................................................................. 110 

4.7.1強化學習的智能交易系統框架 .......................................110 

4.7.2智能交易系統環境模型編程 ......................................... 110 第 4章習題 .....................................................................116 第 5章深度強化學習 Q網絡 ..................................................... 117 

5.1深度 Q網絡 ............................................................... 117 

5.1.1智能策略 ........................................................... 117 

5.1.2策略函數與 Q表格 ................................................. 118 

5.1.3策略函數與 Q網絡 ................................................. 120 

5.2 DQN算法介紹 ............................................................ 121 

5.2.1經驗回放 ........................................................... 121 

5.2.2目標網絡 ........................................................... 122 

5.3 DQN算法 .................................................................123 

5.4 DoubleDQN .............................................................. 125 

5.4.1 Double DQN背景 .................................................. 125 

5.4.2雙 Q網絡結構......................................................126 

5.4.3 Double DQN算法偽代碼 ........................................... 127 

5.5 Dueling DQN..............................................................128 

5.5.1 Dueling DQN算法框架簡介 ........................................ 128 

5.5.2 Dueling DQN算法核心思想 ........................................ 128 

5.6 Distributional DQN ....................................................... 129 

5.7 DQN的其他改進 .......................................................... 130 

5.7.1優先級經驗回放 .................................................... 131 

5.7.2噪聲網絡 DQN ..................................................... 132 

5.7.3多步(Multi-step)DQN............................................134 

5.7.4分佈式訓練 ......................................................... 135 

5.7.5 DQN算法改進 ..................................................... 136 

5.7.6 DQN算法總結 ..................................................... 136 

5.8應用實踐 .................................................................. 137 

5.8.1智能投資決策系統 .................................................. 137 

5.8.2核心代碼解析 .......................................................139 

目錄 

5.8.3模型訓練 ........................................................... 140 

5.8.4模型測試 ........................................................... 142 第 5章習題 .....................................................................143 第 6章深度策略優化方法 ......................................................... 144 

6.1策略梯度方法簡介 ......................................................... 144 

6.1.1 DQN的局限 ....................................................... 144 

6.1.2策略梯度方法分類 .................................................. 145 

6.2隨機性策略梯度算法 ....................................................... 147 

6.2.1軌跡數據 ........................................................... 147 

6.2.2目標函數 ........................................................... 147 

6.2.3梯度計算 ........................................................... 148 

6.2.4更新策略 ........................................................... 150 

6.3隨機性策略梯度定理 ....................................................... 150 

6.3.1隨機性策略梯度定理介紹 ........................................... 150 

6.3.2隨機性策略梯度定理分析 ........................................... 151 

6.4策略梯度優化幾種實現方法 ................................................ 152 

6.4.1策略梯度優化理論 .................................................. 152 

6.4.2完整軌跡的累積獎勵回報 ........................................... 152 

6.4.3部分軌跡的累積獎勵回報 ........................................... 153 

6.4.4常數基線函數 .......................................................153 

6.4.5基於狀態的基線函數 ................................................153 

6.4.6基於狀態值函數的基線函數 ......................................... 154 

6.4.7基於自舉方法的梯度估計 ........................................... 154 

6.4.8基於優勢函數的策略梯度優化 .......................................154 

6.5深度策略梯度優化算法.....................................................155 

6.6置信閾策略優化算法 ....................................................... 157 

6.6.1置信閾策略優化算法介紹 ........................................... 157 

6.6.2重要性採樣 ......................................................... 158 

6.6.3置信閾策略優化算法核心技巧 .......................................160 

6.6.4置信閾策略優化算法偽代碼 ......................................... 160 

6.7近端策略優化算法 ......................................................... 162 

6.7.1近端策略優化算法介紹..............................................162 

6.7.2近端策略優化算法核心技巧 ......................................... 162 

6.7.3近端策略優化算法(PPO2)偽代碼 .................................164 

6.8應用實踐 .................................................................. 165 

6.8.1模型參數 ........................................................... 166 

6.8.2模型訓練 ........................................................... 167 

· IX · 

 

6.8.3模型測試 ........................................................... 167 第 6章習題 .....................................................................168 第 7章深度確定性策略梯度方法 .................................................. 169 

7.1確定性策略梯度方法應用場景 ..............................................169 

7.2策略梯度方法比較 ......................................................... 170 

7.3確定性策略函數的深度神經網絡表示 ....................................... 172 

7.4確定性策略梯度定理 ....................................................... 173 

7.5深度確定性策略梯度算法 .................................................. 175 

7.5.1算法核心介紹 .......................................................175 

7.5.2經驗回放 ........................................................... 176 

7.5.3目標網絡 ........................................................... 176 

7.5.4參數軟更新 ......................................................... 177 

7.5.5深度確定性策略梯度算法偽代碼 .................................... 178 

7.6孿生延遲確定性策略梯度算法 ..............................................179 

7.6.1 TD3算法介紹 ...................................................... 179 

7.6.2 TD3算法的改進 ....................................................179 

7.6.3 TD3算法偽代碼 ....................................................181 

7.7應用實踐 .................................................................. 183 

7.7.1核心代碼解析 .......................................................183 

7.7.2模型訓練 ........................................................... 184 

7.7.3模型測試 ........................................................... 184 第 7章習題 .....................................................................185 第 8章 Actor-Critic算法 ........................................................186 

8.1 Actor-Critic簡介 .......................................................... 186 

8.2 AC算法 ...................................................................187 

8.2.1 AC算法介紹 ....................................................... 187 

8.2.2 AC算法參數更新...................................................188 

8.2.3 AC算法偽代碼 ..................................................... 189 

8.3 A2C算法..................................................................190 

8.3.1 A2C算法介紹 ...................................................... 190 

8.3.2優勢函數和基線函數 ................................................192 

8.3.3 A2C算法偽代碼 ....................................................193 

8.4 A3C算法..................................................................193 

8.4.1 A3C算法介紹 ...................................................... 194 

8.4.2 A3C算法的改進和優化 .............................................194 

8.4.3 A3C算法偽代碼 ....................................................196 

8.5 SAC算法 ................................................................. 197 

目錄 

8.5.1 SAC算法介紹 ...................................................... 197 

8.5.2智能體動作多樣性 .................................................. 198 

8.5.3 SAC算法理論核心 ................................................. 199 

8.5.4 SAC算法偽代碼....................................................201 

8.6應用實踐 .................................................................. 203 

8.6.1核心代碼解析 .......................................................203 

8.6.2模型訓練 ........................................................... 204 

8.6.3模型測試 ........................................................... 204 第 8章習題 .....................................................................205 第 9章深度強化學習與規劃 .......................................................206 

9.1學習與規劃 ................................................................ 206 

9.2基於模型的深度強化學習 .................................................. 207 

9.2.1深度強化學習模型分類..............................................207 

9.2.2深度強化學習中的學習模塊 ......................................... 208 

9.2.3深度強化學習中的規劃模塊 ......................................... 209 

9.3 Dyna框架 .................................................................210 

9.3.1 Dyna框架介紹 ..................................................... 210 

9.3.2 Dyna框架的模型學習 .............................................. 211 

9.4 Dyna-Q算法 .............................................................. 212 

9.4.1 Dyna-Q算法介紹...................................................212 

9.4.2 Dyna-Q算法偽代碼 ................................................ 213 

9.5 Dyna-Q改進 .............................................................. 215 

9.6 Dyna-2框架 ...............................................................217 

9.7應用實踐 .................................................................. 218 

9.7.1編程實踐模塊介紹 .................................................. 218 

9.7.2 Gym ............................................................... 218 

9.7.3強化學習代碼庫 .................................................... 219 第 9章習題 .....................................................................221 第 10章深度強化學習展望 ........................................................223 

10.1深度強化學習背景 ........................................................ 223 

10.1.1源於學科交叉 ..................................................... 223 

10.1.2用於序貫決策 ..................................................... 223 

10.1.3強於深度學習 ..................................................... 224 

10.2深度強化學習簡史 ........................................................ 224 

10.2.1游戲控制嶄露頭角 ................................................. 224 

10.2.2 AlphaGo風靡全球 ................................................ 225 

10.2.3通用智能備受期待 ................................................. 225 

· XI · 

 

10.3深度強化學習分類 ........................................................ 226 

10.3.1基於值函數和基於策略函數的深度強化學習 ........................ 226 

10.3.2基於模型和無模型的深度強化學習 ................................. 226 

10.3.3異策略和同策略學習 ...............................................228 

10.4深度強化學習面臨的挑戰 ................................................. 228 

10.4.1樣本效率 .......................................................... 228 

10.4.2災難性遺忘 ........................................................229 

10.4.3虛實映射鴻溝 ..................................................... 230 

10.4.4有效表徵學習 ..................................................... 231 

10.4.5可拓展性與規模化 ................................................. 232 

10.4.6延遲獎勵 .......................................................... 233 

10.4.7稀疏獎勵 .......................................................... 233 

10.4.8探索和利用 ........................................................234 

10.4.9復雜動態環境 ..................................................... 235 

10.5深度強化學習前沿 ........................................................ 236 

10.5.1多智能體深度強化學習 ............................................ 236 

10.5.2深度逆向強化學習 ................................................. 237 

10.5.3模仿學習 .......................................................... 238 

10.5.4行為克隆 .......................................................... 239 

10.5.5圖強化學習 ........................................................241 

10.6深度強化學習實踐 ........................................................ 241 

10.6.1深度強化學習建模框架 ............................................ 241 

10.6.2深度強化學習模型的核心模塊......................................242 第 10章習題 ....................................................................245