深度強化學習核心算法與應用
陳世勇,蘇博覽,楊敬文
- 出版商: 電子工業
- 出版日期: 2021-09-01
- 定價: $414
- 售價: 8.5 折 $352
- 語言: 簡體中文
- 頁數: 160
- 裝訂: 平裝
- ISBN: 712141760X
- ISBN-13: 9787121417603
-
相關分類:
Reinforcement、Reinforcement
立即出貨 (庫存 < 3)
買這商品的人也買了...
-
$354量化價值投資:人工智能算法驅動的理性投資 -
用 Python 實作強化學習|使用 TensorFlow 與 OpenAI Gym (Hands-On Reinforcement Learning with Python)$520$411 -
$469深度強化學習:學術前沿與實戰應用 -
Python 遷移學習$534$507 -
強化式學習:打造最強 AlphaZero 通用演算法$780$663 -
$534元學習:基礎與應用 -
詳解 FPGA:人工智能時代的驅動引擎$354$336 -
$611深度強化學習:基礎、研究與應用 -
$568金融中的機器學習 -
$706人工智能:計算 Agent 基礎, 2/e (Artificial Intelligence: Foundations of Computational Agents, 2/e) -
$505深度學習經典案例解析(基於MATLAB) -
深度強化學習落地指南$654$621 -
$305深度強化學習 -
$235AWS 雲計算基礎與實踐 -
$189電腦視覺 — Python + TensorFlow + Keras 深度學習實戰 (微課視頻版) -
$374AI 遊戲開發和深度學習進階 -
新一代 AI 霸主:深度強化學習從基礎開始到專案開發$980$774 -
$474人工智能算法 -
深度強化學習圖解$834$792 -
$352Python 深度強化學習 — 使用 PyTorch, TensorFlow 和 OpenAI -
不靠框架硬功夫 - Scikit-learn 手刻機器學習每行程式碼$780$390 -
深度強化學習$779$740 -
$611Python 圖像處理經典實例 -
$509群體智能與演化博弈 -
$602Python 機器學習原理與算法實現
中文年末書展|繁簡參展書2書75折 詳見活動內容 »
-
75折
為你寫的 Vue Components:從原子到系統,一步步用設計思維打造面面俱到的元件實戰力 (iThome 鐵人賽系列書)$780$585 -
75折
BDD in Action, 2/e (中文版)$960$720 -
75折
看不見的戰場:社群、AI 與企業資安危機$750$563 -
79折
AI 精準提問 × 高效應用:DeepSeek、ChatGPT、Claude、Gemini、Copilot 一本搞定$390$308 -
7折
超實用!Word.Excel.PowerPoint 辦公室 Office 365 省時高手必備 50招, 4/e (暢銷回饋版)$420$294 -
75折
裂縫碎光:資安數位生存戰$550$412 -
85折
日本當代最強插畫 2025 : 150位當代最強畫師豪華作品集$640$544 -
79折
Google BI 解決方案:Looker Studio × AI 數據驅動行銷實作,完美整合 Google Analytics 4、Google Ads、ChatGPT、Gemini$630$498 -
79折
超有料 Plus!職場第一實用的 AI 工作術 - 用對 AI 工具、自動化 Agent, 讓生產力全面進化!$599$473 -
75折
從零開始學 Visual C# 2022 程式設計, 4/e (暢銷回饋版)$690$518 -
75折
Windows 11 制霸攻略:圖解 AI 與 Copilot 應用,輕鬆搞懂新手必學的 Windows 技巧$640$480 -
75折
精準駕馭 Word!論文寫作絕非難事 (好評回饋版)$480$360 -
Sam Yang 的插畫藝術:用 Procreate / PS 畫出最強男友視角 x 女孩美好日常$699$629 -
79折
AI 加持!Google Sheets 超級工作流$599$473 -
78折
想要 SSR? 快使用 Nuxt 吧!:Nuxt 讓 Vue.js 更好處理 SEO 搜尋引擎最佳化(iThome鐵人賽系列書)$780$608 -
75折
超實用!業務.總管.人資的辦公室 WORD 365 省時高手必備 50招 (第二版)$500$375 -
7折
Node-RED + YOLO + ESP32-CAM:AIoT 智慧物聯網與邊緣 AI 專題實戰$680$476 -
79折
「生成式⇄AI」:52 個零程式互動體驗,打造新世代人工智慧素養$599$473 -
7折
Windows APT Warfare:惡意程式前線戰術指南, 3/e$720$504 -
75折
我輩程式人:回顧從 Ada 到 AI 這條程式路,程式人如何改變世界的歷史與未來展望 (We, Programmers: A Chronicle of Coders from Ada to AI)$850$637 -
75折
不用自己寫!用 GitHub Copilot 搞定 LLM 應用開發$600$450 -
79折
Tensorflow 接班王者:Google JAX 深度學習又快又強大 (好評回饋版)$780$616 -
79折
GPT4 會你也會 - 共融機器人的多模態互動式情感分析 (好評回饋版)$700$553 -
79折
技術士技能檢定 電腦軟體應用丙級術科解題教本|Office 2021$460$363 -
75折
Notion 與 Notion AI 全能實戰手冊:生活、學習與職場的智慧策略 (暢銷回饋版)$560$420
相關主題
商品描述
強化學習是實現決策智能的主要途徑之一。經歷數十年的發展,強化學習領域已經枝繁葉茂,技術內容紛繁復雜,這也為初學者快速入門造成障礙。 本書是一本深度強化學習領域的入門讀物。全書分為四部分。第一部分主要闡述強化學習領域的基本理論知識;第二部分講解深度強化學習常用算法的原理、各算法之間的繼承與發展,以及各自的算法流程;第三部分總結深度強化學習算法在遊戲、推薦系統等領域的應用;第四部分探討了該領域存在的問題和發展前景。 本書適合對強化學習感興趣的讀者閱讀。
作者簡介
陳世勇
騰訊遊戲AI研究中心高級算法研究員。
畢業於南京大學機器學習與數據挖掘研究所,主要從事強化學習、分佈式機器學習方面的研究工作,並在國際頂級會議和期刊上發表多篇論文。
對於大規模強化學習在遊戲AI和推薦系統領域的研究和落地有著豐富經驗,負責了多款遊戲的強化學習AI項目和“淘寶錦囊”強化學習推薦項目研發,參與了虛擬淘寶項目研發。
蘇博覽
新加坡國立大學博士,曾任職於騰訊遊戲AI研究中心,參與了QQ飛車和鬥地主遊戲AI的研發,在國際頂級會議和期刊發表論文數十篇,在機器學習和強化學習上有豐富的科研和落地應用經驗。
楊敬文
騰訊遊戲AI研究中心高級算法研究員。
畢業於南京大學機器學習與數據挖掘研究所,獲南京大學“優秀畢業生”稱號、南京大學計算機優秀碩士畢業論文獎。
曾獲全國大學生大數據競賽獲得冠軍,在國際頂會發表多篇論文和技術文章。
長期從事強化學習在遊戲領域的研究與應用,是競速類、格鬥類、射擊類、多人在線戰術競技類等強化學習AI項目的主要負責人之一,具有豐厚的強化學習研究和落地的經驗。
目錄大綱
第I 部分基礎理論篇 1
第1 章馬爾可夫決策過程 3
1.1 馬爾可夫性 3
1.2 一些基本定義 4
1.3 值函數 5
1.4 基於策略的值函數 5
1.5 貝爾曼方程 6
1.6 策略疊代與值疊代 7
第2 章無模型的強化學習 9
2.1 蒙特卡洛方法 10
2.1.1 蒙特卡洛方法預測狀態V 值 10
2.1.2 蒙特卡洛方法預測Q 值 11
2.1.3 蒙特卡洛策略優化算法 11
2.1.4 探索和利用 12
2.1.5 異策略蒙特卡洛方法 13
2.2 時間差分方法 16
2.2.1 基本思想 16
2.2.2 Sarsa 算法 17
2.2.3 Q-Learning 算法 20
2.3 值函數估計和策略搜索 23
2.3.1 值函數估計 23
2.3.2 策略搜索 24
第3 章有模型的強化學習 27
3.1 什麼是模型 27
3.2 基本思路 28
3.3 有模型方法和無模型方法的區別 29
3.4 典型算法 31
第II 部分常用算法篇 33
第4 章DQN 算法 35
4.1 算法介紹 35
4.1.1 背景 36
4.1.2 核心技術 37
4.1.3 算法流程 39
4.2 相關改進 40
4.2.1 Double Q-Learning 40
4.2.2 優先級回放 41
4.2.3 Dueling Networks 41
4.3 實驗效果與小結 43
第5 章A3C 算法 45
5.1 Actor-Critic 方法 45
5.2 基線減法與優勢函數 47
5.3 博採眾長的A3C 算法 48
5.4 實驗效果與小結 50
第6 章確定性策略梯度方法 53
6.1 隨機性策略梯度與確定性策略梯度 53
6.2 異策略的確定性策略梯度 54
6.3 深度確定性策略梯度 56
6.4 D4PG 算法 57
6.4.1 分佈式 57
6.4.2 值函數分佈 58
6.4.3 N-step TD 誤差和優先級的經驗回放 59
6.5 實驗效果與小結 59
第7 章PPO 算法 61
7.1 PPO 算法的核心 61
7.2 TRPO 算法 62
7.3 PPO 算法 65
7.4 實驗效果與小結 67
7.4.1 替代函數的對比 67
7.4.2 在連續空間中與其他算法的對比 68
7.4.3 小結 69
第8 章IMPALA 算法 71
8.1 算法架構 71
8.2 V-trace 算法 73
8.3 V-trace Actor-Critic 算法 75
8.4 實驗效果與小結 76
8.4.1 計算性能 76
8.4.2 單任務訓練性能 76
8.4.3 多任務訓練性能 78
8.4.4 小結 79
第III 部分應用實踐篇 81
第9 章深度強化學習在棋牌遊戲中的應用 83
9.1 棋盤類遊戲 84
9.1.1 AlphaGo: 戰勝人類圍棋冠軍 84
9.1.2 AlphaGo Zero: 不使用人類數據,從頭學習 87
9.1.3 AlphaZero: 從圍棋到更多 90
9.2 牌類遊戲 93
9.2.1 Suphx 的五個模型 93
9.2.2 Suphx 的訓練過程和算法優化 94
9.2.3 Suphx 的線上實戰表現 94
第10 章深度強化學習在電子遊戲中的應用 97
10.1 研發遊戲中的機器人 97
10.1.1 單機遊戲 97
10.1.2 對戰遊戲 99
10.1.3 小結 104
10.2 製作遊戲動畫 105
10.3 其他應用 106
第11 章深度強化學習在推薦系統中的應用 109
11.1 適用的場景 110
11.1.1 動態變化 110
11.1.2 考慮長期利益 110
11.2 淘寶錦囊推薦中的應用 111
11.2.1 淘寶錦囊推薦介紹 111
11.2.2 問題建模與推薦框架 112
11.2.3 算法設計與實驗 114
第12 章深度強化學習在其他領域中的應用 119
12.1 在無人駕駛中的應用 119
12.2 在金融交易中的應用 121
12.3 在信息安全中的應用 122
12.4 在自動調參中的應用 123
12.5 在交通控制中的應用 124
第IV 部分總結與展望篇 127
第13 章問題與挑戰 129
13.1 樣本利用率低 129
13.2 獎勵函數難以設計 131
13.3 實驗效果難復現 132
13.4 行為不完全可控 134
第14 章深度強化學習往何處去 135
14.1 未來發展和研究方向 136
14.1.1 有模型的方法潛力巨大 136
14.1.2 模仿學習 137
14.1.3 遷移學習的引入 138
14.1.4 分層強化學習 140
14.2 審慎樂觀,大有可為 141
參考資料 143
