強化學習
白辰甲, 趙英男, 郝建業等編著
- 出版商: 機械工業
- 出版日期: 2023-05-01
- 定價: $654
- 售價: 8.5 折 $556
- 語言: 簡體中文
- 頁數: 304
- 裝訂: 平裝
- ISBN: 711172478X
- ISBN-13: 9787111724780
-
相關分類:
Reinforcement
立即出貨 (庫存 < 4)
買這商品的人也買了...
-
$408強化學習精要:核心算法與 TensorFlow 實現 -
$594深度強化學習原理與實踐 -
$756強化學習, 2/e (Reinforcement Learning: An Introduction, 2/e) -
動手做深度強化學習 (Deep Reinforcement Learning Hands-On)$690$538 -
最新圖解馬達入門$300$255 -
$505強化學習 -
$374強化學習入門:從原理到實踐 -
$403商用機器學習:數據科學實踐 -
$611深度強化學習:基礎、研究與應用 -
動手學強化學習$539$512 -
深度強化學習圖解$834$792 -
$458基於機器學習的工作流活動推薦 -
深度強化學習$779$740 -
$559因果推斷與機器學習 -
$465深度學習在醫學圖像中的應用 -
深度強化學習理論與實踐$534$507 -
$602機器視覺及深度學習——經典算法與系統搭建 -
$356強化學習實戰 — 從零開始製作 AlphaGo 圍棋 (微課視頻版) -
$407Python 統計機器學習 -
強化學習:原理與 Python 實戰$774$735 -
$407機器學習與深度學習(基於Python實現) -
強化學習與機器人控制$588$559 -
$426R語言醫學多元統計分析 -
自然語言處理與醫療文本的知識抽取$539$512 -
$356強化學習演算法入門
中文年末書展|繁簡參展書2書75折 詳見活動內容 »
-
75折
為你寫的 Vue Components:從原子到系統,一步步用設計思維打造面面俱到的元件實戰力 (iThome 鐵人賽系列書)$780$585 -
75折
BDD in Action, 2/e (中文版)$960$720 -
75折
看不見的戰場:社群、AI 與企業資安危機$750$563 -
79折
AI 精準提問 × 高效應用:DeepSeek、ChatGPT、Claude、Gemini、Copilot 一本搞定$390$308 -
7折
超實用!Word.Excel.PowerPoint 辦公室 Office 365 省時高手必備 50招, 4/e (暢銷回饋版)$420$294 -
75折
裂縫碎光:資安數位生存戰$550$412 -
85折
日本當代最強插畫 2025 : 150位當代最強畫師豪華作品集$640$544 -
79折
Google BI 解決方案:Looker Studio × AI 數據驅動行銷實作,完美整合 Google Analytics 4、Google Ads、ChatGPT、Gemini$630$498 -
79折
超有料 Plus!職場第一實用的 AI 工作術 - 用對 AI 工具、自動化 Agent, 讓生產力全面進化!$599$473 -
75折
從零開始學 Visual C# 2022 程式設計, 4/e (暢銷回饋版)$690$518 -
75折
Windows 11 制霸攻略:圖解 AI 與 Copilot 應用,輕鬆搞懂新手必學的 Windows 技巧$640$480 -
75折
精準駕馭 Word!論文寫作絕非難事 (好評回饋版)$480$360 -
Sam Yang 的插畫藝術:用 Procreate / PS 畫出最強男友視角 x 女孩美好日常$699$629 -
79折
AI 加持!Google Sheets 超級工作流$599$473 -
78折
想要 SSR? 快使用 Nuxt 吧!:Nuxt 讓 Vue.js 更好處理 SEO 搜尋引擎最佳化(iThome鐵人賽系列書)$780$608 -
78折
超實用!業務.總管.人資的辦公室 WORD 365 省時高手必備 50招 (第二版)$500$390 -
7折
Node-RED + YOLO + ESP32-CAM:AIoT 智慧物聯網與邊緣 AI 專題實戰$680$476 -
79折
「生成式⇄AI」:52 個零程式互動體驗,打造新世代人工智慧素養$599$473 -
7折
Windows APT Warfare:惡意程式前線戰術指南, 3/e$720$504 -
75折
我輩程式人:回顧從 Ada 到 AI 這條程式路,程式人如何改變世界的歷史與未來展望 (We, Programmers: A Chronicle of Coders from Ada to AI)$850$637 -
75折
不用自己寫!用 GitHub Copilot 搞定 LLM 應用開發$600$450 -
79折
Tensorflow 接班王者:Google JAX 深度學習又快又強大 (好評回饋版)$780$616 -
79折
GPT4 會你也會 - 共融機器人的多模態互動式情感分析 (好評回饋版)$700$553 -
79折
技術士技能檢定 電腦軟體應用丙級術科解題教本|Office 2021$460$363 -
75折
Notion 與 Notion AI 全能實戰手冊:生活、學習與職場的智慧策略 (暢銷回饋版)$560$420
相關主題
商品描述
本書介紹強化學習基本算法以及前沿研究和應用。
強化學習基礎包括基於值函數和基於策略的算法。
前沿研究是本書的特色和主要部分,將分為六個章節,包括:
基於模型的強化學習、探索與利用、層次化強化學習、離線強化學習、強化學習中的表示學習、元強化學習。
強化學習前沿應用包括三個章節,分別介紹無人駕駛和導航、機械臂任務和星際爭霸遊戲智能體。
本書以構建完整的強化學習前沿理論為主,深入淺出的講解強化學習的各個研究分支,並闡述這些研究分支之間的聯繫。
對於前沿研究中的理論公式,將結合讀者閱讀科研文獻的經驗來進行直觀的講解,降低讀者閱讀的難度。
本書各章節之間彼此獨立又相互聯繫。
作者簡介
郝建業,天津大學智能與計算學部副教授,獲哈爾濱工業大學學士學位,香港中文大學博士學位,曾任MIT計算機科學與人工智能實驗室博士後研究員。研究方向為深度強化學習與多智能體系統,近年來在NeurIPS、ICML、ICLR、AAAI、IJCAI等人工智能領域知名會議及IEEE彙刊發表論文80餘篇,出版專題2部。
目錄大綱
目錄
序言
前言
第1章強化學習簡介
1.1 從監督學習到強化學習
1.2 強化學習的發展歷史
1.3 強化學習的研究範疇
1.4 強化學習的應用領域
第2章強化學習基礎知識
2.1 強化學習的核心概念
2.2 馬爾可夫性和決策過程
2.3 值函數和策略學習
第3章基於值函數的強化學習算法
3.1 深度Q學習的基本理論
3.1.1 深度Q網絡
3.1.2 經驗池
3.1.3 目標網絡
3.2 深度Q學習的過估計
3.2.1 過估計的產生原因
3.2.2 Double Q-學習
3.3 深度Q學習的網絡改進和高效採樣
3.3.1 Dueling網絡
3.3.2 高效採樣
3.4 週期後序疊代Q學習
3.5 Q學習用於連續動作空間
3.5.1 基於並行結構的Q學習
3.5.2 基於順序結構的Q學習
3.6 實例:使用值函數學習的Atari遊戲
3.6.1 環境預處理
3.6.2 Q網絡的實現
3.6.3 Q學習的核心步驟
第4章策略梯度疊代的強化學習算法
4.1 REINFORCE策略梯度
4.1.1 策略梯度的基本形式
4.1.2 降低策略梯度的方差
4.2 異步策略梯度法
4.2.1 引入優勢函數
4.2.2 異步策略梯度
4.3 近端策略優化法
4.3.1 裁剪的優化目標
4.3.2 自適應的優化目標
4.4 深度確定性策略梯度
4.4.1 critic學習
4.4.2 actor學習
4.4.3 拓展1:探索噪聲
4.4.4 拓展2:孿生DDPG
4.5 熵策略梯度
4.5.1 熵約束的基本原理
4.5.2 SAC算法
4.6 實例:使用策略梯度的Mujoco任務
4.6.1 actor-critic網絡實現
4.6.2 核心算法實現
第5章基於模型的強化學習方法
5.1 如何使用模型來進行強化學習
5.2 基於模型預測的規劃
5.2.1 隨機打靶法
5.2.2 集成概率軌跡採樣法
5.2.3 基於模型和無模型的混合算法
5.2.4 基於想像力的隱式規劃方法
5.3 黑盒模型的理論框架
5.3.1 隨機下界優化算法
5.3.2 基於模型的策略優化算法
5.4 白盒模型的使用
5.4.1 隨機值梯度算法
5.4.2 模型增強的actor-critic算法
5.5 實例:AlphaGo圍棋智能體
5.5.1 網絡結構介紹
5.5.2 蒙特卡羅樹搜索
5.5.3 總體訓練流程
第6章值分佈式強化學習算法
6.1 離散分佈投影的值分佈式算法
6.2 分位數回歸的值分佈式算法
6.2.1 分位數回歸
6.2.2 Wasserstein距離
6.2.3 QR-DQN算法
6.2.4 單調的分位數學習算法
6.3 隱式的值分佈網絡
6.4 基於值分佈的代價敏感學習
6.4.1 IQN中的代價敏感學習
6.4.2 基於IQN的actor-critic模型的代價敏感學習
6.5 實例:基於值分佈的Q網絡實現
6.5.1 IQN模型構建
6.5.2 IQN損失函數
第7章強化學習中的探索算法
7.1 探索算法的分類
7.2 基於不確定性估計的探索
7.2.1 參數化後驗的算法思路
7.2.2 重採樣DQN
7.3 進行虛擬計數的探索
7.3.1 基於圖像生成模型的虛擬計數
7.3.2 基於哈希的虛擬計數
7.4 根據環境模型的探索
7.4.1 特徵表示的學習
7.4.2 隨機網絡蒸餾
7.4.3 Never-Give-Up算法
7.5 實例:蒙特祖瑪復仇任務的探索
7.5.1 RND網絡結構
7.5.2 RND的訓練
7.5.3 RND用於探索
第8章多目標強化學習算法
8.1 以目標為條件的價值函數
8.1.1 熵HER
8.1.2 動態目標HER
8.2 監督式的多目標學習
8.2.1 Hindsight模仿學習
8.2.2 加權監督式多目標學習
8.3 推廣的多目標學習
8.4 實例:模擬機械臂的多目標抓取
8.4.1 多目標實驗環境
8.4.2 HER的實現方法
8.4.3 MEP的算法實現
第9章層次化強化學習算法
9.1 層次化學習的重要性
9.2 基於子目標的層次化學習
9.2.1 封建網絡的層次化學習
9.2.2 離策略修正的層次化學習
9.2.3 虛擬子目標的強化學習方法
9.3 基於技能的層次化學習
9.3.1 使用隨機網絡的層次化學習
9.3.2 共享分層的元學習方法
9.4 基於選項的層次化學習
9.4.1 option與半馬爾可夫決策過程
9.4.2 option-critic結構
9.5 實例:層次化學習螞蟻走迷宮任務
第10章基於技能的強化學習算法
10.1 技能學習的定義
10.2 互信息化的技能學習算法
10.2.1 多樣性化技能學習算法
10.2.2 其他基於互信息的技能學習方法
10.3 融合環境模型的技能學習算法
10.4 化狀態覆蓋的技能學習算法
10.5 實例:人形機器人的技能學習
第11章離線強化學習算法
11.1 離線強化學習中面臨的困難
11.2 策略約束的離線學習
11.2.1 BCQ算法
11.2.2 BRAC算法
11.2.3 TD3-BC算法
11.3 使用保守估計的離線學習
11.4 基於不確定性的離線學習
11.4.1 UWAC算法
