強化學習入門:從原理到實踐

葉強 閆維新 黎斌

立即出貨 (庫存 < 3)

買這商品的人也買了...

相關主題

商品描述

本書以理論和實踐相結合的形式深入淺出地介紹強化學習的歷史、基本概念、經典算法和一些前沿技術,共分為三大部分:
一部分(1~5章)介紹強化學習的發展歷史、強化學習的基本概念以及一些經典的強化學習算法;
二部分(6~9章)在簡要回顧深度學習技術的基礎上著重介紹深度強化學習的一些前沿實用算法;
三部分(後一章)以五子棋為例詳細講解戰勝了人類圍棋選手的Alpha Zero算法的核心思想。葉強 閆維新 黎斌

目錄大綱

目錄
前言
致謝
常用數學符號
主要算法列表
第1章概述1
1.1強化學習的歷史1
1.2強化學習的基本概念2
1.3章節組織6
1.4編程環境與代碼資源6

第2章從一個示例到馬爾可夫決策過程7
2.1馬爾可夫過程7
2.2馬爾可夫獎勵過程9
2.3馬爾可夫決策過程13
2.4編程實踐:學生馬爾可夫決策示例20
2.4.1收穫和價值的計算20
2.4.2驗證貝爾曼方程22

第3章動態規劃尋找*優策略29
3.1策略評估29
3.2策略迭代32
3.3價值迭代33
3.4異步動態規划算法36
3.5編程實踐:動態規劃求解小型格子世界*優策略37
3.5.1小型格子世界MDP建模37
3.5.2策略評估40
3.5.3策略迭代41
3.5.4價值迭代41

第4章不基於模型的預測43
4.1蒙特卡羅強化學習43
4.2時序差分強化學習45
4.3 n步時序差分學習50
4.4編程實踐:蒙特卡羅學習評估21點遊戲的玩家策略54
4.4.1 21點遊戲規則54
4.4.2將21點遊戲建模為強化學習問題55
4.4.3遊戲場景的搭建55
4.4.4生成對局數據64
4.4.5策略評估64

第5章無模型的控制67
5.1行為價值函數的重要性67
5.2貪婪策略68
5.3同策略蒙特卡羅控制69
5.4同策略時序差分控制70
5.4.1 Sarsa算法70
5.4.2 Sarsa(λ)算法73
5.4.3比較Sarsa和Sarsa(λ) 74
5.5異策略Q學習算法76
5.6編程實踐:蒙特卡羅學習求解21點遊戲的*優策略78
5.7編程實踐:構建基於gym的有風的格子世界及個體81
5.7.1 gym庫簡介81
5.7.2狀態序列的管理83
5.7.3個體基類的編寫84
5.8編程實踐:各類學習算法的實現及與有風的格子世界的交互88
5.8.1 Sarsa算法89
5.8.2 Sarsa( λ)算法90
5.8.3 Q學習算法91

第6章價值函數的近似表示93
6.1價值近似的意義93
6.2目標函數與梯度下降95
6.2.1目標函數95
6.2.2梯度和梯度下降97
6.3常用的近似價值函數100
6.3.1線性近似101
6.3.2神經網絡101
6.3.3卷積神經網絡近似104
6.4 DQN算法108
6.5編程實踐:基於PyTorch實現DQN求解PuckWorld問題109
6.5.1基於神經網絡的近似價值函數110
6.5.2實現DQN求解PuckWorld問題113

第7章基於策略梯度的深度強化學習117
7.1基於策略學習的意義117
7.2策略目標函數119
7.3 Actor-Critic算法121
7.4深度確定性策略梯度算法124
7.5編程實踐:DDPG算法實現125
7.5.1連續行為空間的PuckWorld環境125
7.5.2 Actor-Critic網絡的實現127
7.5.3確定性策略下探索的實現130
7.5.4 DDPG算法的實現130
7.5. 5 DDPG算法在PuckWorld環境中的表現135

第8章基於模型的學習和規劃137
8.1環境的模型137
8.2整合學習與規劃——Dyna算法139
8.3基於模擬的搜索140
8.3.1簡單蒙特卡羅搜索140
8.3.2蒙特卡羅樹搜索141

第9章探索與利用143
9.1多臂遊戲機143
9.2常用的探索方法145
9.2.1衰減的貪婪探索145
9.2.2不確定行為優先探索146
9.2.3基於信息價值的探索149

第10章Alpha Zero算法實戰151
10.1自博弈中的蒙特卡羅樹搜索154
10.2模型評估中的蒙特卡羅搜索156
10.3策略價值網絡結構及策略提升160
10.4編程實踐:Alpha Zero算法在五子棋上的實現161
10.4.1從零開始搭建棋盤環境161
10.4.2搭建兩種MCTS以實現Alpha
Zero自博弈與模型評估168
10.4.3搭建策略價值網絡並進行策略提升177
10.4.4訓練自己的Alpha Zero
模型182
參考文獻184