深入淺出強化學習:原理入門 深入浅出强化学习:原理入门

郭憲

  • 出版商: 電子工業出版社
  • 出版日期: 2018-01-01
  • 定價: $474
  • 售價: $474
  • 貴賓價: 9.5$450
  • 語言: 簡體中文
  • 頁數: 256
  • 裝訂: 平裝
  • ISBN: 7121329182
  • ISBN-13: 9787121329180
  • 銷售排行: 🥉 2018/4 簡體中文書 銷售排行 第 3 名
    🥉 2018/3 簡體中文書 銷售排行 第 3 名
    🥈 2018/2 簡體中文書 銷售排行 第 2 名

立即出貨

買這商品的人也買了...

相關活動主題

20180704 %e7%b0%a1%e9%ab%94%e6%9b%b8%e6%9c%80%e6%96%b0%e5%88%b0%e8%b2%a8 small
20180308 deep learning tensorflow small gif

商品描述

《深入淺出強化學習:原理入門》內容提要
《深入淺出強化學習:原理入門》用通俗易懂的語言深入淺出地介紹了強化學習的基本原理,覆蓋了傳統的強化學習基本方法和當前炙手可熱的深度強化學習方法。開篇從最基本的馬爾科夫決策過程入手,將強化學習問題納入到嚴謹的數學框架中,接著闡述瞭解決此類問題最基本的方法——動態規劃方法,並從中總結出解決強化學習問題的基本思路:交互迭代策略評估和策略改善。
基於這個思路,分別介紹了基於值函數的強化學習方法和基於直接策略搜索的強化學習方法。最後介紹了逆向強化學習方法和近年具有代表性、比較前沿的強化學習方法。
除了系統地介紹基本理論,書中還介紹了相應的數學基礎和編程實例。因此,《深入淺出強化學習:原理入門》既適合零基礎的人員入門學習、也適合相關科研人員作為研究參考。

海報:

作者簡介

郭憲,南開大學計算機與控制工程學院博士後。2009 年畢業於華中科技大學機械設計製造及自動化專業,同年保送到中國科學院瀋陽自動化研究所碩博連讀,主攻機器人動力學建模與控制,並於2016 年1 月獲得工學博士學位;期間在國內外知名雜誌和會議發表論文數10 篇。
2016 年以來,郭博士主攻方向為機器人智能感知和智能決策,目前主持兩項國家級課題,內容涉及深度學習、深度強化學習等智能算法在機器人領域中的應用。

目錄大綱

1緒論1 
1.1這是一本什麼書1 
1.2強化學習可以解決什麼問題2 
1.3強化學習如何解決問題4 
1.4強化學習算法分類及發展趨勢5 
1.5強化學習仿真環境構建7 
1.5.1 gym安裝及簡單的demo示例8 
1.5.2深入剖析gym環境構建10 
1.6本書主要內容及安排12 

第一篇強化學習基礎17 

2馬爾科夫決策過程18 
2.1馬爾科夫決策過程理論講解18 
2.2 MDP中的概率學基礎講解26 
2.3基於gym的MDP實例講解29 
2.4習題34 

3基於模型的動態規劃方法36 

3.1基於模型的動態規劃方法理論36 
3.2動態規劃中的數學基礎講解47 
3.2.1線性方程組的迭代解法47 
3.2 .2壓縮映射證明策略評估的收斂性49 
3.3基於gym的編程實例52 
3.4最優控制與強化學習比較54 
3.5習題56 

第二篇基於值函數的強化學習方法57 

4基於蒙特卡羅的強化學習方法58 
4.1基於蒙特卡羅方法的理論58 
4.2統計學基礎知識67
4.3基於Python的編程實例71 
4.4習題74 

5基於時間差分的強化學習方法75 
5.1基於時間差分強化學習算法理論講解75 
5.2基於Python和gym的編程實例83 
5.3習題87 

6基於值函數逼近的強化學習方法88 
6.1基於值函數逼近的理論講解88 
6.2 DQN及其變種94 
6.2.1 DQN方法94 
6.2.2 Double DQN 100 
6.2.3優先回放(Prioritized Replay) 102 
6.2.4 Dueling DQN 104 
6.3函數逼近方法105 
6.3 .1基於非參數的函數逼近105 
6.3.2基於參數的函數逼近111 
6.3.3卷積神經網絡117 
6.4習題123 

第三篇基於直接策略搜索的強化學習方法125 

7基於策略梯度的強化學習方法126 
7.1基於策略梯度的強化學習方法理論講解126 
7.2基於gym和TensorFlow的策略梯度算法實現134 
7.2.1安裝Tensorflow 135 
7.2.2策略梯度算法理論基礎135 
7.2.3 Softmax策略及其損失函數136 
7.2.4基於TensorFlow的策略梯度算法實現138
7.2.5基於策略梯度算法的小車倒立擺問題141 
7.3習題141 

8基於置信域策略優化的強化學習方法142 
8.1理論基礎143 
8.2 TRPO中的數學知識153 
8.2.1信息論153 
8.2.2優化方法155 
8.3習題164 

9基於確定性策略搜索的強化學習方法165 
9.1理論基礎165 
9.2習題170 

10基於引導策略搜索的強化學習方法171 
10.1理論基礎171 
10.2 GPS中涉及的數學基礎178 
10.2.1監督相LBFGS優化方法178 
10.2.2 ADMM算法179 
10.2.3 KL散度與變分推理183 
10.3習題184 

第四篇強化學習研究及前沿185 

11逆向強化學習186 
11.1概述186 
11.2基於最大邊際的逆向強化學習187 
11.3基於最大熵的逆向強化學習194 
11.4習題201 

12組合策略梯度和值函數方法202 

13值迭代網絡207 
13.1為什麼要提出值迭代網絡207 
13.2值迭代網絡210 

14基於模型的強化學習方法:PILCO及其擴展214
14.1概述214 
14.2 PILCO 216 
14.3濾波PILCO和探索PILCO 226 
14.3.1濾波PILCO算法227 
14.3.2有向探索PILCO算法230 
14.4深度PILCO 232 

後記235 
參考文獻237