深度強化學習
劉全、黃誌剛
- 出版商: 清華大學
- 出版日期: 2021-08-01
- 定價: $359
- 售價: 8.5 折 $305
- 語言: 簡體中文
- 頁數: 243
- 裝訂: 平裝
- ISBN: 7302578206
- ISBN-13: 9787302578208
-
相關分類:
Reinforcement
立即出貨 (庫存 < 3)
買這商品的人也買了...
-
Python 深度學習實作:Keras 快速上手$500$390 -
$354量化價值投資:人工智能算法驅動的理性投資 -
$352Python 強化學習實戰 : 應用 OpenAI Gym 和 TensorFlow 精通強化學習和深度強化學習 -
$280深度學習基礎教程 -
用 Python 實作強化學習|使用 TensorFlow 與 OpenAI Gym (Hands-On Reinforcement Learning with Python)$520$411 -
實戰人工智慧之深度強化學習|使用 PyTorch x Python$500$395 -
動手做深度強化學習 (Deep Reinforcement Learning Hands-On)$690$538 -
$327邊做邊學深度強化學習:PyTorch 程序設計實踐 -
$230TensorFlow 強化學習快速入門指南使用 Python 動手搭建自學習的智能體 (Tensorflow Reinforcement Learning Quick Start Guide) -
$374強化學習入門:從原理到實踐 -
$568金融中的機器學習 -
$280計算方法 — 數據分析與智能計算初探, 2/e -
$352深度強化學習核心算法與應用 -
$403Python 深度強化學習 : 基於 Chainer 和 OpenAI Gym -
$378智能推薦系統開發實戰 -
$352人工神經網絡:模型、算法及應用 -
$474人工智能算法 -
PyTorch 深度學習入門與應用:必備實作知識與工具一本就學會$600$468 -
$352Python 深度強化學習 — 使用 PyTorch, TensorFlow 和 OpenAI -
不靠框架硬功夫 - Scikit-learn 手刻機器學習每行程式碼$780$390 -
深度強化學習$779$740 -
$611Python 圖像處理經典實例 -
$509群體智能與演化博弈 -
$602Python 機器學習原理與算法實現 -
$449基於 Python 的強化學習 (Reinforcement Learning Algorithms with Python : Learn, understand, and develop smart algorithms for addressing AI challenges)
中文年末書展|繁簡參展書2書75折 詳見活動內容 »
-
75折
為你寫的 Vue Components:從原子到系統,一步步用設計思維打造面面俱到的元件實戰力 (iThome 鐵人賽系列書)$780$585 -
75折
BDD in Action, 2/e (中文版)$960$720 -
75折
看不見的戰場:社群、AI 與企業資安危機$750$563 -
79折
AI 精準提問 × 高效應用:DeepSeek、ChatGPT、Claude、Gemini、Copilot 一本搞定$390$308 -
7折
超實用!Word.Excel.PowerPoint 辦公室 Office 365 省時高手必備 50招, 4/e (暢銷回饋版)$420$294 -
75折
裂縫碎光:資安數位生存戰$550$412 -
85折
日本當代最強插畫 2025 : 150位當代最強畫師豪華作品集$640$544 -
79折
Google BI 解決方案:Looker Studio × AI 數據驅動行銷實作,完美整合 Google Analytics 4、Google Ads、ChatGPT、Gemini$630$498 -
79折
超有料 Plus!職場第一實用的 AI 工作術 - 用對 AI 工具、自動化 Agent, 讓生產力全面進化!$599$473 -
75折
從零開始學 Visual C# 2022 程式設計, 4/e (暢銷回饋版)$690$518 -
75折
Windows 11 制霸攻略:圖解 AI 與 Copilot 應用,輕鬆搞懂新手必學的 Windows 技巧$640$480 -
75折
精準駕馭 Word!論文寫作絕非難事 (好評回饋版)$480$360 -
Sam Yang 的插畫藝術:用 Procreate / PS 畫出最強男友視角 x 女孩美好日常$699$629 -
79折
AI 加持!Google Sheets 超級工作流$599$473 -
78折
想要 SSR? 快使用 Nuxt 吧!:Nuxt 讓 Vue.js 更好處理 SEO 搜尋引擎最佳化(iThome鐵人賽系列書)$780$608 -
75折
超實用!業務.總管.人資的辦公室 WORD 365 省時高手必備 50招 (第二版)$500$375 -
7折
Node-RED + YOLO + ESP32-CAM:AIoT 智慧物聯網與邊緣 AI 專題實戰$680$476 -
79折
「生成式⇄AI」:52 個零程式互動體驗,打造新世代人工智慧素養$599$473 -
7折
Windows APT Warfare:惡意程式前線戰術指南, 3/e$720$504 -
75折
我輩程式人:回顧從 Ada 到 AI 這條程式路,程式人如何改變世界的歷史與未來展望 (We, Programmers: A Chronicle of Coders from Ada to AI)$850$637 -
75折
不用自己寫!用 GitHub Copilot 搞定 LLM 應用開發$600$450 -
79折
Tensorflow 接班王者:Google JAX 深度學習又快又強大 (好評回饋版)$780$616 -
79折
GPT4 會你也會 - 共融機器人的多模態互動式情感分析 (好評回饋版)$700$553 -
79折
技術士技能檢定 電腦軟體應用丙級術科解題教本|Office 2021$460$363 -
75折
Notion 與 Notion AI 全能實戰手冊:生活、學習與職場的智慧策略 (暢銷回饋版)$560$420
相關主題
商品描述
本書基於PyTorch框架,用通俗易懂的語言深入淺出地介紹了強化學習的基本原理,包括傳統的強化學習基本方法和目前流行的深度強化學習方法。在對強化學習任務建模的基礎上,首先介紹動態規劃法、蒙特卡洛法、時序差分法等表格式強化學習方法,然後介紹在PyTorch框架下,DQN、DDPG、A3C等基於深度神經網絡的大規模強化學習方法。全書以一個掃地機器人任務貫穿始終,並給出具有代表性的實例,增加對每個算法的理解。全書配有PPT和視頻講解,對相關算法和實例配有代碼程序。 全書共分三部分: 第一和第二部分(第1~8章)為表格式強化學習部分,著重介紹深度強化學習概述、環境的配置、數學建模、動態規劃法、蒙特卡洛法、時序差分法、n步時序差分法、規劃和蒙特卡洛樹搜索; 第三部分(第9~14章)為深度強化學習部分,著重介紹深度學習、PyTorch與神經網絡、深度Q網絡、策略梯度、基於確定性策略梯度的深度強化學習、AC框架的拓展。全書提供了大量的應用實例,每章章末均附有習題。 本書既適合作為高等院校電腦、軟件工程、電子工程等相關專業高年級本科生、研究生的教材,又可為人工智能、機器學習等領域從事項目開發、科學研究的人員提供參考。
作者簡介
劉全,蘇州大學教授,博士生導師。
吉林大學博士, 南京大學軟件新技術國家重點實驗室博士後。
蘇州市人工智能學會常務理事、秘書長。 2006年開始從事強化學習
領域的教學和科研工作。
主講研究生、本科生《強化學習》及相關課程16次。主持“深度強化學習方法研究”、“部分感知強化學習理論及方法”、“基於tableau的邏輯強化學習研究”等國家、省部級項目10餘項。
目前主要研究方向為:深度強化學習。
2012年獲江蘇省教工委優秀員稱號。
2011年、2012年入選江蘇省“六大人才”、江蘇省“333”人才培養計劃。
目錄大綱
第一部分:預備知識及環境安裝
第1章深度強化學習概述
1.1引言
1.2深度學習
1.3強化學習
1.4深度強化學習
1.5小結
1.6習題
第2章環境的配置
2.1PyTorch簡介
2.2PvTorch和TensorFlow
2.3強化學開發環境
2.3.1Anaconda環境搭建
2.3.2Anaconda環境管理
2.3.3PyTorch的安裝
2.3.4JupyterNotebook的安裝
2.3.5JupyterNotebook的使用
2.3.6Gym的安裝
2.3.7Gym案例
2.4小結
2.5習題
第二部分:表格式強化學習
第3章數學建模
3.1馬爾可夫決策過程
3.2基於模型與無模型
3.3求解強化學習任務
3.3.1策略
3.3.2獎賞與回報
3.3.3值函數與貝爾曼方程
3.3.4優策略與優值函數
3.4探索與利用
3.5小結
3.6習題
第4章動態規劃法
4.1策略疊代
4.1.1策略評估
4.1.2策略疊代
4.2值疊代
4.3廣義策略疊代
4.4小結
4.5習題
第5章蒙特卡洛法
5.1蒙特卡洛法的基本概念
5.1.1MC的核心要素
5.1.2MC的特點
5.2蒙特卡洛預測
5.3蒙特卡洛評估
5.4蒙特卡洛控制
5.4.1基於探索始點的蒙特卡洛控制
5.4.2同策略蒙特卡洛控制
5.4.3異策略與重要性採樣
5.4.4蒙特卡洛中的增量式計算
5.4.5異策略蒙特卡洛控制
5.5小結
5.6習題
第6章時序差分法
6.1時序差分預測
6.2時序差分控制圓
6.2.1Sarsa算法
6.2.2Q-Learning算法
6.2.3期望sarsa算法
6.3大化偏差與DoubleQ-Learning
6.3.1大化偏差
6.3.2DoubleQ-Learning
6.3.3DoubleQ-Learning
DP、MC和TD算法的關係
.1窮舉式遍歷與軌跡採樣
.2期望更新與採樣更新
6.5小結
6.6習題
第7章n-步時序差分法
7.1.ln-步TD預測及資格跡回
7.1.1n-步TD預測
7.1.2前向TD(λ)算法
7.1.3後向TD(λ)算法
7.2n-步TD控制及其資格跡實現
7.2.1同策略n-步Sarsa算法
7.2.2Sarsa(λ)算法
7.2.3異策略n-步Sarsa算法
7.2.4n-步TreeBackup算法
7.3小結
7.4習題
第8章規劃和蒙特卡洛樹搜索
8.1模型、學習與規劃回
8.1.1模型
8.1.2學習
8.1.3規劃
8.2Dyna-Q結構及其算法改進回
8.2.1Dyna-Q架構
8.2.2優先遍歷
8.2.3模擬模型的錯誤性
8.3決策時間規劃
8.3.1啟發式搜索
8.3.2預演算法
8.3.3蒙特卡洛樹搜索
8.4小結
8.5習題
第三部分:深度強化學習
第9章深度學習
9.1傳統神經網絡圓
9.1.1感知器神經元
9.1.2激活函數
9.2反向傳播算法
9.2.1前向傳播
9.2.2權重調整
9.2.3BP算法推導
9.3捲積神經網絡
9.3.1捲積神經網絡核心思想
9.3.2捲積神經網絡結構
9.4小結
9.5習題
第10章PyTorch與神經網絡
10.1PyTorch扣的Tensor
10.1.1直接構造法
10.1.2間接轉換法
10.1.3Tensor的變換
10.2自動梯度計算
10.2.1標量對標量的自動梯度計算
10.2.2向量對向量的自動梯度計算
10.2.3標量對向量(或矩陣)的自動梯度計算
10.3神經網絡的模型搭建和參數優化
10.3.1模型的搭建
10.3.2激活函數
10.3.3常用的損失函數
10.3.4模型的保存和重載
10.4小結
10.5習題
第11章深度Q網絡
11.1DQN算法
11.1.1核心思想
11.1.2訓練算法
11.1.3實驗結果與分析
11.2DoubleDQN算法
11.2.1核心思想
11.2.2實驗結果與分析
11.3PrioritizedDQN
11.3.1核心思想
11.3.2訓練算法
11.3.3實驗結果與分析
11.4DuelingDQN
11.4.1訓練算法
11.4.2實驗結果與分析
11.5小結
11.6習題
第12章策略梯度法
12.1隨機策略梯度法
12.1.1梯度上升算法
12.1.2策略梯度法與值函數逼近法的比較
12.2策略優化方法
12.2.1情節式策略目標函數
12.2.2連續式策略目標函數
12.2.3策略梯度定理
12.3策略表達形式
12.3.1離散動作空間策略參數化
12.3.2連續動作空間策略參數化



