Joy RL:強化學習實踐教程
江季、王琦、楊毅遠
- 出版商: 人民郵電
- 出版日期: 2025-04-01
- 售價: $479
- 貴賓價: 9.5 折 $455
- 語言: 簡體中文
- 頁數: 160
- ISBN: 7115631549
- ISBN-13: 9787115631541
-
相關分類:
Reinforcement
立即出貨
買這商品的人也買了...
-
程式設計師的自我修養-連結、載入、程式庫$580$458 -
機器學習$648$616 -
統計強化學習:現代機器學習方法 (Statistical Reinforcement Learning: Modern Machine Learning Approaches)$474$450 -
動手做深度強化學習 (Deep Reinforcement Learning Hands-On)$690$538 -
用 Python 編程和實踐!數學教科書$539$512 -
寫給新手的深度學習2 — 用 Python 實現的循環神經網絡 RNN 和 VAE、GAN$539$512 -
Easy RL 強化學習教程$599$569 -
TensorFlow Lite 移動端深度學習$654$621 -
$301面向深度學習和大數據的軌道交通軸承故障智能診斷方法 -
$356強化學習 -
精確掌握 AI 大趨勢!深度學習技術解密:日本 AI 神人,帶你正確學會從機器學習到生成式 AI 的核心基礎$630$498 -
$356強化學習:人工智能如何知錯 -
$422大模型推薦系統:算法原理、代碼實戰與案例分析 -
$658新能源汽車減速機設計與開發 -
$314高效玩轉 DeepSeek:解鎖 90%的人都不知道的使用技巧 -
StatQuest 圖解機器學習 (全彩)$708$673 -
$469從零構建大模型:算法、訓練與微調 -
強化學習 — 從原理到實踐$414$393 -
基於 Vivado 的 FPGA 時序約束實戰$528$502 -
$403DeepSeek全場景應用 -
多智能體強化學習 基礎與現代方法$654$621 -
$981深度學習:基礎與概念 -
LLM 最強重武裝 - RAG 開發應用優化現場直擊$980$774 -
嵌入式系統原理與應用 — 基於 Arm Cortex-M4、STM32Cube 與 FreeRTOS 的開發方法$474$450 -
$348基於 STM32 的嵌入式系統原理與應用
中文年末書展|繁簡參展書2書75折 詳見活動內容 »
-
75折
為你寫的 Vue Components:從原子到系統,一步步用設計思維打造面面俱到的元件實戰力 (iThome 鐵人賽系列書)$780$585 -
75折
BDD in Action, 2/e (中文版)$960$720 -
75折
看不見的戰場:社群、AI 與企業資安危機$750$563 -
79折
AI 精準提問 × 高效應用:DeepSeek、ChatGPT、Claude、Gemini、Copilot 一本搞定$390$308 -
7折
超實用!Word.Excel.PowerPoint 辦公室 Office 365 省時高手必備 50招, 4/e (暢銷回饋版)$420$294 -
75折
裂縫碎光:資安數位生存戰$550$412 -
85折
日本當代最強插畫 2025 : 150位當代最強畫師豪華作品集$640$544 -
79折
Google BI 解決方案:Looker Studio × AI 數據驅動行銷實作,完美整合 Google Analytics 4、Google Ads、ChatGPT、Gemini$630$498 -
79折
超有料 Plus!職場第一實用的 AI 工作術 - 用對 AI 工具、自動化 Agent, 讓生產力全面進化!$599$473 -
75折
從零開始學 Visual C# 2022 程式設計, 4/e (暢銷回饋版)$690$518 -
75折
Windows 11 制霸攻略:圖解 AI 與 Copilot 應用,輕鬆搞懂新手必學的 Windows 技巧$640$480 -
75折
精準駕馭 Word!論文寫作絕非難事 (好評回饋版)$480$360 -
Sam Yang 的插畫藝術:用 Procreate / PS 畫出最強男友視角 x 女孩美好日常$699$629 -
79折
AI 加持!Google Sheets 超級工作流$599$473 -
78折
想要 SSR? 快使用 Nuxt 吧!:Nuxt 讓 Vue.js 更好處理 SEO 搜尋引擎最佳化(iThome鐵人賽系列書)$780$608 -
78折
超實用!業務.總管.人資的辦公室 WORD 365 省時高手必備 50招 (第二版)$500$390 -
7折
Node-RED + YOLO + ESP32-CAM:AIoT 智慧物聯網與邊緣 AI 專題實戰$680$476 -
79折
「生成式⇄AI」:52 個零程式互動體驗,打造新世代人工智慧素養$599$473 -
7折
Windows APT Warfare:惡意程式前線戰術指南, 3/e$720$504 -
75折
我輩程式人:回顧從 Ada 到 AI 這條程式路,程式人如何改變世界的歷史與未來展望 (We, Programmers: A Chronicle of Coders from Ada to AI)$850$637 -
75折
不用自己寫!用 GitHub Copilot 搞定 LLM 應用開發$600$450 -
79折
Tensorflow 接班王者:Google JAX 深度學習又快又強大 (好評回饋版)$780$616 -
79折
GPT4 會你也會 - 共融機器人的多模態互動式情感分析 (好評回饋版)$700$553 -
79折
技術士技能檢定 電腦軟體應用丙級術科解題教本|Office 2021$460$363 -
75折
Notion 與 Notion AI 全能實戰手冊:生活、學習與職場的智慧策略 (暢銷回饋版)$560$420
相關主題
商品描述
本書是繼《Easy RL:強化學習教程》(俗稱“蘑菇書”)之後,為強化學習的讀者專門打造的一本深入實踐的全新教程。全書大部分內容基於3位作者的實踐經驗,涵蓋馬爾可夫決策過程、動態規劃、免模型預測、免模型控制、深度學習基礎、DQN算法、DQN算法進階、策略梯度、Actor-Critic算法、DDPG與TD3算法、PPO算法等內容,旨在幫助讀者快速入門強化學習的代碼實踐,並輔以一套開源代碼框架“JoyRL”,便於讀者適應業界應用研究風格的代碼。與“蘑菇書”不同,本書對強化學習核心理論進行提煉,並串聯知識點,重視強化學習代碼實踐的指導而不是對理論的詳細講解。
本書適合具有一定編程基礎且希望快速進入實踐應用階段的讀者閱讀。
作者簡介
江季,網易高級算法工程師,碩士畢業於北京大學。Datawhale成員,《Easy RL:強化學習教程》《深度學習詳解》作者。主要研究方向為強化學習、深度學習、大模型、機器人等。曾獲國家獎學金、上海市優秀畢業生等,取得強化學習與遊戲AI等相關專利多項。
王琦,上海交通大學人工智能教育部重點實驗室博士研究生,碩士畢業於中國科學院大學。Datawhale成員,《Easy RL:強化學習教程》《深度學習詳解》作者,AI TIME成員,Hugging Face社區誌願者。主要研究方向為視覺強化學習與世界模型。曾獲“中國光谷·華為杯”第十九屆中國研究生數學建模競賽二等獎、中國大學生電腦設計大賽二等獎、亞太地區大學生數學建模競賽(APMCM)二等獎等,發表NeurIPS、ICLR Oral論文多篇。
楊毅遠,牛津大學電腦系博士研究生,碩士畢業於清華大學。Datawhale成員,《Easy RL:強化學習教程》《深度學習詳解》作者。主要研究方向為時間序列、數據挖掘、智能傳感系統、深度學習。曾獲國家獎學金、北京市優秀畢業生、清華大學優秀碩士學位論文獎、全國大學生智能汽車競賽總冠軍等,發表SCI、EI論文多篇。
目錄大綱
第 1 章 緒論 1
1.1 為什麼要學習強化學習? 2
1.2 強化學習的應用 3
1.3 強化學習方向概述 6
1.3.1 多智能體強化學習 6
1.3.2 模仿學習和逆強化學習 6
1.3.3 探索策略 7
1.3.4 實時環境 7
1.3.5 多任務強化學習 8
1.4 學習本書之前的一些準備 8
第 2 章 馬爾可夫決策過程 10
2.1 馬爾可夫決策過程 10
2.2 馬爾可夫性質 12
2.3 回報 12
2.4 狀態轉移矩陣 13
2.5 本章小結 16
2.6 練習題 16
第 3 章 動態規劃 17
3.1 動態規劃的編程思想 17
3.2 狀態價值函數和動作價值函數 20
3.3 貝爾曼方程 20
3.4 策略疊代算法 22
3.5 價值疊代算法 23
3.6 本章小結 25
3.7 練習題 25
第 4 章 免模型預測 26
4.1 有模型與免模型 26
4.2 預測與控制 27
4.3 蒙特卡羅方法 27
4.4 時序差分方法 30
4.5 時序差分方法和蒙特卡羅方法的差異 31
4.6 n 步時序差分方法 32
4.7 本章小結 33
4.8 練習題 34
第 5 章 免模型控制 35
5.1 Q-learning 算法 35
5.1.1 Q 表格 36
5.1.2 探索策略 38
5.2 Sarsa 算法 39
5.3 同策略算法與異策略算法 40
5.4 實戰:Q-learning 算法 .41
5.4.1 定義訓練 41
5.4.2 定義算法 42
5.4.3 定義環境 44
5.4.4 設置參數 46
5.4.5 開始訓練 46
5.4.6 結果分析 48
5.4.7 消融實驗 49
5.5 實戰:Sarsa 算法 .50
5.6 本章小結 51
5.7 練習題 51
第 6 章 深度學習基礎 52
6.1 強化學習與深度學習的關系 52
6.2 線性回歸模型 55
6.3 梯度下降 56
6.4 邏輯回歸模型 57
6.5 全連接網絡 59
6.6 高級的神經網絡模型 60
6.7 本章小結 62
6.8 練習題 62
第 7 章 DQN 算法 63
7.1 深度神經網絡 63
7.2 經驗回放 65
7.3 目標網絡 67
7.4 實戰:DQN 算法 68
7.4.1 偽代碼 68
7.4.2 定義模型 69
7.4.3 經驗回放 70
7.4.4 定義智能體 71
7.4.5 定義環境 74
7.4.6 設置參數 75
7.5 本章小結 77
7.6 練習題 77
第 8 章 DQN 算法進階 78
8.1 Double DQN 算法 78
8.2 Dueling DQN 算法 80
8.3 Noisy DQN 算法 81
8.4 PER DQN 算法 82
8.5 實戰:Double DQN 算法 86
8.6 實戰:Dueling DQN 算法 87
8.7 實戰:Noisy DQN 算法 89
8.8 實戰:PER DQN 算法 92
8.8.1 偽代碼 92
8.8.2 SumTree 結構 93
8.8.3 PER . 95
8.9 本章小結 98
8.10 練習題 98
第 9 章 策略梯度 99
9.1 基於價值的算法的缺點 99
9.2 策略梯度算法 100
9.3 REINFORCE 算法 104
9.4 策略梯度推導進階 105
9.4.1 平穩分佈 106
9.4.2 基於平穩分佈的策略梯度推導 110
9.5 策略函數的設計 111
9.5.1 離散動作空間的策略函數 111
9.5.2 連續動作空間的策略函數 112
9.6 本章小結 112
9.7 練習題 113
第 10 章 Actor-Critic 算法 114
10.1 策略梯度算法的優缺點 114
10.2 Q Actor-Critic 算法 115
10.3 A2C 與 A3C 算法 116
10.4 廣義優勢估計 118
10.5 實戰:A2C 算法 119
10.5.1 定義模型 119
10.5.2 採樣動作 120
10.5.3 策略更新 121
10.6 本章小結 123
10.7 練習題 123
第 11 章 DDPG 與 TD3 算法 124
11.1 DPG 算法 124
11.2 DDPG 算法 126
11.3 DDPG 算法的優缺點 128
11.4 TD3 算法 129
11.4.1 雙 Q 網絡 130
11.4.2 延遲更新 130
11.4.3 噪聲正則化 131
11.5 實戰:DDPG 算法 131
11.5.1 DDPG 偽代碼 131
11.5.2 定義模型 132
11.5.3 動作採樣 133
11.6 實戰:TD3 算法 136
11.7 本章小結 138
11.8 練習題 138
第 12 章 PPO 算法 139
12.1 重要性採樣 139
12.2 PPO 算法141
12.3 一個常見的誤區 142
12.4 實戰:PPO 算法.143
12.4.1 PPO 算法偽代碼 143
12.4.2 PPO 算法更新 144
12.5 本章小結 146
12.6 練習題 146
練習題答案 147


