深入淺出強化學習 : 原理入門
郭憲
- 出版商: 電子工業
- 出版日期: 2018-01-01
- 定價: $474
- 售價: 8.5 折 $403
- 語言: 簡體中文
- 頁數: 256
- 裝訂: 平裝
- ISBN: 7121329182
- ISBN-13: 9787121329180
-
相關分類:
Reinforcement
-
相關翻譯:
最新人工智慧應用:用強化學習快速上手 AI (繁中版)
銷售排行:
👍 2018 年度 簡體中文書 銷售排行 第 6 名
🥉 2018/4 簡體中文書 銷售排行 第 3 名
🥉 2018/3 簡體中文書 銷售排行 第 3 名
🥈 2018/2 簡體中文書 銷售排行 第 2 名
立即出貨 (庫存 < 4)
買這商品的人也買了...
-
$147OpenCV 3 計算機視覺 : Python 語言實現, 2/e (Learning OpenCV 3 Computer Vision with Python, 2/e) -
$474數據科學家養成手冊 -
$796深度學習 -
Deep Learning|用 Python 進行深度學習的基礎理論實作$580$458 -
$474深度學習與計算機視覺 : 算法原理、框架應用與代碼實現 (Deep Learning & Computer Vision:Algorithms and Examples) -
$474深度學習入門之 PyTorch -
演算法圖鑑:26種演算法 + 7種資料結構,人工智慧、數據分析、邏輯思考的原理和應用 step by step 全圖解$450$356 -
為你自己學 Git$500$390 -
$505深度學習 : 一起玩轉 TensorLayer -
$390深度學習框架 PyTorch : 入門與實踐 -
Python 資料運算與分析實戰:一次搞懂 NumPy, SciPy, Matplotlib, Pandas 最強套件$590$502 -
圖說演算法 : 使用 Python$380$296 -
$474深入理解 TensorFlow 架構設計與實現原理 -
$408強化學習精要:核心算法與 TensorFlow 實現 -
最新人工智慧應用:用強化學習快速上手 AI$580$493 -
$308GAN : 實戰生成對抗網絡 -
$403Python 深度學習實戰:75個有關神經網絡建模、強化學習與遷移學習的解決方案 (Python Deep Learning Cookbook: Over 75 practical recipes on neural network modeling, reinforcement learning, and transfer learning using Python) -
$607強化學習 -
白話深度學習與 TensorFlow$480$379 -
$352Python 強化學習實戰 : 應用 OpenAI Gym 和 TensorFlow 精通強化學習和深度強化學習 -
深度學習入門教室:6堂基礎課程 + Python 實作練習,Deep Learning、人工智慧、機器學習的理論和應用全圖解$550$495 -
用 Python 實作強化學習|使用 TensorFlow 與 OpenAI Gym (Hands-On Reinforcement Learning with Python)$520$411 -
$756強化學習, 2/e (Reinforcement Learning: An Introduction, 2/e) -
$505白話強化學習與 PyTorch -
動手做深度強化學習 (Deep Reinforcement Learning Hands-On)$690$538
中文年末書展|繁簡參展書2書75折 詳見活動內容 »
-
75折
為你寫的 Vue Components:從原子到系統,一步步用設計思維打造面面俱到的元件實戰力 (iThome 鐵人賽系列書)$780$585 -
75折
BDD in Action, 2/e (中文版)$960$720 -
75折
看不見的戰場:社群、AI 與企業資安危機$750$563 -
79折
AI 精準提問 × 高效應用:DeepSeek、ChatGPT、Claude、Gemini、Copilot 一本搞定$390$308 -
7折
超實用!Word.Excel.PowerPoint 辦公室 Office 365 省時高手必備 50招, 4/e (暢銷回饋版)$420$294 -
75折
裂縫碎光:資安數位生存戰$550$412 -
85折
日本當代最強插畫 2025 : 150位當代最強畫師豪華作品集$640$544 -
79折
Google BI 解決方案:Looker Studio × AI 數據驅動行銷實作,完美整合 Google Analytics 4、Google Ads、ChatGPT、Gemini$630$498 -
79折
超有料 Plus!職場第一實用的 AI 工作術 - 用對 AI 工具、自動化 Agent, 讓生產力全面進化!$599$473 -
75折
從零開始學 Visual C# 2022 程式設計, 4/e (暢銷回饋版)$690$518 -
75折
Windows 11 制霸攻略:圖解 AI 與 Copilot 應用,輕鬆搞懂新手必學的 Windows 技巧$640$480 -
75折
精準駕馭 Word!論文寫作絕非難事 (好評回饋版)$480$360 -
Sam Yang 的插畫藝術:用 Procreate / PS 畫出最強男友視角 x 女孩美好日常$699$629 -
79折
AI 加持!Google Sheets 超級工作流$599$473 -
78折
想要 SSR? 快使用 Nuxt 吧!:Nuxt 讓 Vue.js 更好處理 SEO 搜尋引擎最佳化(iThome鐵人賽系列書)$780$608 -
78折
超實用!業務.總管.人資的辦公室 WORD 365 省時高手必備 50招 (第二版)$500$390 -
7折
Node-RED + YOLO + ESP32-CAM:AIoT 智慧物聯網與邊緣 AI 專題實戰$680$476 -
79折
「生成式⇄AI」:52 個零程式互動體驗,打造新世代人工智慧素養$599$473 -
7折
Windows APT Warfare:惡意程式前線戰術指南, 3/e$720$504 -
75折
我輩程式人:回顧從 Ada 到 AI 這條程式路,程式人如何改變世界的歷史與未來展望 (We, Programmers: A Chronicle of Coders from Ada to AI)$850$637 -
75折
不用自己寫!用 GitHub Copilot 搞定 LLM 應用開發$600$450 -
79折
Tensorflow 接班王者:Google JAX 深度學習又快又強大 (好評回饋版)$780$616 -
79折
GPT4 會你也會 - 共融機器人的多模態互動式情感分析 (好評回饋版)$700$553 -
79折
技術士技能檢定 電腦軟體應用丙級術科解題教本|Office 2021$460$363 -
75折
Notion 與 Notion AI 全能實戰手冊:生活、學習與職場的智慧策略 (暢銷回饋版)$560$420
相關主題
商品描述
《深入淺出強化學習:原理入門》內容提要
《深入淺出強化學習:原理入門》用通俗易懂的語言深入淺出地介紹了強化學習的基本原理,覆蓋了傳統的強化學習基本方法和當前炙手可熱的深度強化學習方法。開篇從最基本的馬爾科夫決策過程入手,將強化學習問題納入到嚴謹的數學框架中,接著闡述瞭解決此類問題最基本的方法——動態規劃方法,並從中總結出解決強化學習問題的基本思路:交互疊代策略評估和策略改善。
基於這個思路,分別介紹了基於值函數的強化學習方法和基於直接策略搜索的強化學習方法。最後介紹了逆向強化學習方法和近年具有代表性、比較前沿的強化學習方法。
除了系統地介紹基本理論,書中還介紹了相應的數學基礎和編程實例。因此,《深入淺出強化學習:原理入門》既適合零基礎的人員入門學習、也適合相關科研人員作為研究參考。
海報:

作者簡介
郭憲,南開大學計算機與控制工程學院博士後。2009 年畢業於華中科技大學機械設計製造及自動化專業,同年保送到中國科學院瀋陽自動化研究所碩博連讀,主攻機器人動力學建模與控制,並於2016 年1 月獲得工學博士學位;期間在國內外知名雜誌和會議發表論文數10 篇。
2016 年以來,郭博士主攻方向為機器人智能感知和智能決策,目前主持兩項國家級課題,內容涉及深度學習、深度強化學習等智能算法在機器人領域中的應用。
目錄大綱
1緒論1
1.1這是一本什麼書1
1.2強化學習可以解決什麼問題2
1.3強化學習如何解決問題4
1.4強化學習算法分類及發展趨勢5
1.5強化學習模擬環境構建7
1.5.1 gym安裝及簡單的demo示例8
1.5.2深入剖析gym環境構建10
1.6本書主要內容及安排12
第一篇強化學習基礎17
2馬爾科夫決策過程18
2.1馬爾科夫決策過程理論講解18
2.2 MDP中的概率學基礎講解26
2.3基於gym的MDP實例講解29
2.4習題34
3基於模型的動態規劃方法36
3.1基於模型的動態規劃方法理論36
3.2動態規劃中的數學基礎講解47
3.2.1線性方程組的疊代解法47
3.2 .2壓縮映射證明策略評估的收斂性49
3.3基於gym的編程實例52
3.4最優控制與強化學習比較54
3.5習題56
第二篇基於值函數的強化學習方法57
4基於蒙特卡羅的強化學習方法58
4.1基於蒙特卡羅方法的理論58
4.2統計學基礎知識67
4.3基於Python的編程實例71
4.4習題74
5基於時間差分的強化學習方法75
5.1基於時間差分強化學習算法理論講解75
5.2基於Python和gym的編程實例83
5.3習題87
6基於值函數逼近的強化學習方法88
6.1基於值函數逼近的理論講解88
6.2 DQN及其變種94
6.2.1 DQN方法94
6.2.2 Double DQN 100
6.2.3優先回放(Prioritized Replay) 102
6.2.4 Dueling DQN 104
6.3函數逼近方法105
6.3 .1基於非參數的函數逼近105
6.3.2基於參數的函數逼近111
6.3.3捲積神經網絡117
6.4習題123
第三篇基於直接策略搜索的強化學習方法125
7基於策略梯度的強化學習方法126
7.1基於策略梯度的強化學習方法理論講解126
7.2基於gym和TensorFlow的策略梯度算法實現134
7.2.1安裝Tensorflow 135
7.2.2策略梯度算法理論基礎135
7.2.3 Softmax策略及其損失函數136
7.2.4基於TensorFlow的策略梯度算法實現138
7.2.5基於策略梯度算法的小車倒立擺問題141
7.3習題141
8基於置信域策略優化的強化學習方法142
8.1理論基礎143
8.2 TRPO中的數學知識153
8.2.1信息論153
8.2.2優化方法155
8.3習題164
9基於確定性策略搜索的強化學習方法165
9.1理論基礎165
9.2習題170
10基於引導策略搜索的強化學習方法171
10.1理論基礎171
10.2 GPS中涉及的數學基礎178
10.2.1監督相LBFGS優化方法178
10.2.2 ADMM算法179
10.2.3 KL散度與變分推理183
10.3習題184
第四篇強化學習研究及前沿185
11逆向強化學習186
11.1概述186
11.2基於最大邊際的逆向強化學習187
11.3基於最大熵的逆向強化學習194
11.4習題201
12組合策略梯度和值函數方法202
13值疊代網絡207
13.1為什麼要提出值疊代網絡207
13.2值疊代網絡210
14基於模型的強化學習方法:PILCO及其擴展214
14.1概述214
14.2 PILCO 216
14.3濾波PILCO和探索PILCO 226
14.3.1濾波PILCO算法227
14.3.2有向探索PILCO算法230
14.4深度PILCO 232
後記235
參考文獻237
