強化學習

柯良軍、王小強

  • 出版商: 清華大學
  • 出版日期: 2019-12-01
  • 定價: $414
  • 售價: 8.5$352
  • 語言: 簡體中文
  • ISBN: 7302532400
  • ISBN-13: 9787302532408
  • 相關分類: Reinforcement
  • 立即出貨(限量) (庫存=1)

  • 強化學習-preview-1
  • 強化學習-preview-2
  • 強化學習-preview-3
強化學習-preview-1

買這商品的人也買了...

商品描述

本書介紹強化學習原理、算法及其實現。內容涉及基於模型的強化學習、基於採樣-估計的強化學習、基於逼 近理論的強化學習及深度強化學習等。 本書以教學為目標進行選材,力求闡述嚴謹、重點突出、深入淺出,以便於教學與自學。 本書面向所有對強化學習感興趣的讀者,可作為高等學校理工科高年級本科生、研究生強化學習課程教材或 參考書。

目錄大綱

第1章緒論
1.1引言
1.2解決複雜問題的樸素思想
1.2.1數學建模與優化
1.2.2採樣和估計
1.2.3逼近
1.2.4迭代
1.3強化學習簡史
1.4本書主要內容及結構
1.5小結
1.6習題
參考文獻


第2章基礎知識
2.1運籌學簡明基礎
2.1.1無約束非線性規劃優化方法
2.1.2 KKT條件
2.1.3凸規劃的性質
2.2概率與統計簡明基礎
2.2.1概率論基本概念
2.2.2概率論的收斂定理
2.2.3統計學的基本概念
2.2.4優選似然估計法
2.2.5估計量的優良性評估
2.2.6採樣與隨機模擬
2.2.7 Monte Carlo方法簡介
2.2.8重要採樣法
2.3小結
2.4習題
參考文獻


第一篇基於模型的強化學習


第3章多搖臂問題
3.1動作值方法
3.2非平穩多搖臂問題
3.3 UCB動作選擇
3.4梯度搖臂算法
3.5習題
參考文獻


第4章Markov決策過程
4.1定義和記號
4.2有限Markov決策過程
4.3 Bellman方程
4.4最優策略
4.5小結
4.6習題
參考文獻


第5章動態規劃
5.1策略評估
5.2策略改進
5.3策略迭代
5.4值迭代
5.5異步動態規劃
5.6收斂性證明
5.7小結
5.8習題
參考文獻


第二篇基於採樣-估計的強化學習


第6章策略評估
6.1基於Monte Carlo方法的策略評估
6.1.1同策略Monte Carlo策略評估
6.1.2異策略Monte Carlo策略評估
6.2基於時序差分方法的策略評估
6.3 n步預測
6.4小結
6.5習題
參考文獻


第7章策略控制
7.1同策略Monte Carlo控制
7.2同策略時序差分學習
7.3異策略學習
7.4基於TD(λ)的策略控制
7.5實例
7.5.1問題介紹
7.5.2 MDP模型的要素
7.5.3策略評估
7.5.4策略控制
7.6小結
7.7習題
參考文獻


第8章學習與規劃的整合
8.1模型和規劃
8.2 Dyna:整合規劃、動作和學習
8.3幾個概念
8.4在決策關頭的規劃
8.4.1啟發式算法
8.4.2 rollout算法
8.4.3 Monte Carlo樹搜索
8.5小結
8.6習題
參考文獻


第三篇基於逼近理論的強化學習


第9章值函數逼近
9.1基於隨機梯度下降法的值函數逼近
9.2基於隨機梯度下降法的Q-值函數逼近
9.3批處理
9.3.1線性最小二乘值函數逼近
9.3.2線性最小二乘Q-值函數逼近
9.4小結
9.5習題
參考文獻


第10章策略逼近
10.1策略梯度法
10.1.1最優參數問題的目標函數
10.1.2策略梯度
10.1.3梯度計算
10.1.4 REINFORCE算法
10.2方差減少方法
10.2.1利用一個評論
10.2.2利用基準線
10.3小結
10.4習題
參考文獻


第11章信賴域策略優化
11.1預備知識
11.2單調改進一般性隨機策略的方法
11.3參數化策略的優化
11.4基於採樣的目標和約束估計
11.5實用算法
11.6小結
11.7習題
參考文獻


第四篇深度強化學習


第12章深度學習
12.1神經網絡基礎
12.1.1神經網絡解決問題的基本流程
12.1.2激活函數
12.1.3損失函數
12.1.4優化算法
12.2典型深度神經網絡結構
12.2.1深度的作用
12.2.2卷積神經網絡
12.2.3循環神經網絡
參考文獻


第13章深度Q-網絡
13.1 DQN原理
13.1.1預處理
13.1.2網絡結構
13.1.3算法
13.1.4深度Q-網絡的訓練算法
13.1.5算法詳細說明
13.2 DQN實例
13.2.1 Atari 2600遊戲介紹
13.2.2 DQN算法的實現
13.3小結
13.4習題
參考文獻


第14章深度確定性策略梯度
14.1 DDPG算法介紹
14.1.1 DDPG算法的發展介紹
14.1.2 DDPG算法的原理解析
14.2 DDPG算法的實現
14.2.1 Mujoco的安裝及使用
14.2.2 DDPG算法的實現解析
14.2.3 DDPG算法的訓練和測試
參考文獻


第15章多智能體強化學習
15.1多智能體強化學習介紹
15.1.1多智能體強化學習的發展簡述
15.1.2隨機博弈
15.1.3納什Q-學習
15.2平均場多智能體強化學習原理
15.2.1平均場近似理論
15.2.2平均場多智能體強化學習算法
15.3平均場多智能體實驗
15.3.1 MAgent平台
15.3.2混合合作-競爭的戰鬥遊戲介紹
15.3.3 MF-Q和MF-AC算法的實現解析
15.3.4戰鬥遊戲的訓練與測試
參考文獻