深度強化學習原理與實踐
陳喆
- 出版商: 清華大學
- 出版日期: 2024-05-01
- 定價: $354
- 售價: 8.5 折 $301
- 語言: 簡體中文
- 頁數: 230
- ISBN: 7302660700
- ISBN-13: 9787302660705
-
相關分類:
Reinforcement
立即出貨
買這商品的人也買了...
-
$267神經·模糊·預測控制及其 MATLAB 實現, 4/e -
$469深度強化學習:學術前沿與實戰應用 -
$374強化學習入門:從原理到實踐 -
$301初識量子計算 -
$374奇妙量子世界 人人都能看懂的量子科學漫畫 -
$714算法設計 (Algorithm Design) -
$352強化學習 (微課版) -
$1,423機器學習:貝葉斯和優化方法, 2/e (Machine Learning : A Bayesian and Optimization Perspective, 2/e) -
動手學強化學習$539$512 -
$280智能優化算法——基於生物行為模型的案例分析與設計 -
$280分佈式智能算法及在大數據中的應用 -
$199最優化模型與算法 — 基於 Python 實現 -
$393遺傳算法與機器學習編程 -
流計算系統圖解$588$559 -
$356強化學習演算法入門 -
$407深度學習理論與實踐 -
$422瞬態物理場陣列化探測成像方法 -
$356強化學習 -
$709強化學習與最優控制 -
Python 量子計算實踐:基於 Qiskit 和I BM Quantum Experience 平臺$599$569 -
$473Python 金融量化實戰固定收益類產品分析 -
ChatGPT 4 Omni 萬用手冊 2024 夏季號:GPT-4o/GPT-4o mini、GPTs、DALL-E 3、Copilot、Gemini、Claude 3.5$680$537 -
阿爾法零對最優模型預測自適應控制的啟示$414$393 -
生成深度學習|訓練機器繪畫、寫作、作曲與玩遊戲, 2/e (Generative Deep Learning: Teaching Machines to Paint, Write, Compose, and Play, 2/e)$880$695 -
機器學習 : 最強入門邁向 AI 高手 王者歸來$1,080$853
中文年末書展|繁簡參展書2書75折 詳見活動內容 »
-
75折
為你寫的 Vue Components:從原子到系統,一步步用設計思維打造面面俱到的元件實戰力 (iThome 鐵人賽系列書)$780$585 -
75折
BDD in Action, 2/e (中文版)$960$720 -
75折
看不見的戰場:社群、AI 與企業資安危機$750$563 -
79折
AI 精準提問 × 高效應用:DeepSeek、ChatGPT、Claude、Gemini、Copilot 一本搞定$390$308 -
7折
超實用!Word.Excel.PowerPoint 辦公室 Office 365 省時高手必備 50招, 4/e (暢銷回饋版)$420$294 -
75折
裂縫碎光:資安數位生存戰$550$412 -
85折
日本當代最強插畫 2025 : 150位當代最強畫師豪華作品集$640$544 -
79折
Google BI 解決方案:Looker Studio × AI 數據驅動行銷實作,完美整合 Google Analytics 4、Google Ads、ChatGPT、Gemini$630$498 -
79折
超有料 Plus!職場第一實用的 AI 工作術 - 用對 AI 工具、自動化 Agent, 讓生產力全面進化!$599$473 -
75折
從零開始學 Visual C# 2022 程式設計, 4/e (暢銷回饋版)$690$518 -
75折
Windows 11 制霸攻略:圖解 AI 與 Copilot 應用,輕鬆搞懂新手必學的 Windows 技巧$640$480 -
75折
精準駕馭 Word!論文寫作絕非難事 (好評回饋版)$480$360 -
Sam Yang 的插畫藝術:用 Procreate / PS 畫出最強男友視角 x 女孩美好日常$699$629 -
79折
AI 加持!Google Sheets 超級工作流$599$473 -
78折
想要 SSR? 快使用 Nuxt 吧!:Nuxt 讓 Vue.js 更好處理 SEO 搜尋引擎最佳化(iThome鐵人賽系列書)$780$608 -
78折
超實用!業務.總管.人資的辦公室 WORD 365 省時高手必備 50招 (第二版)$500$390 -
7折
Node-RED + YOLO + ESP32-CAM:AIoT 智慧物聯網與邊緣 AI 專題實戰$680$476 -
79折
「生成式⇄AI」:52 個零程式互動體驗,打造新世代人工智慧素養$599$473 -
7折
Windows APT Warfare:惡意程式前線戰術指南, 3/e$720$504 -
75折
我輩程式人:回顧從 Ada 到 AI 這條程式路,程式人如何改變世界的歷史與未來展望 (We, Programmers: A Chronicle of Coders from Ada to AI)$850$637 -
75折
不用自己寫!用 GitHub Copilot 搞定 LLM 應用開發$600$450 -
79折
Tensorflow 接班王者:Google JAX 深度學習又快又強大 (好評回饋版)$780$616 -
79折
GPT4 會你也會 - 共融機器人的多模態互動式情感分析 (好評回饋版)$700$553 -
79折
技術士技能檢定 電腦軟體應用丙級術科解題教本|Office 2021$460$363 -
75折
Notion 與 Notion AI 全能實戰手冊:生活、學習與職場的智慧策略 (暢銷回饋版)$560$420
相關主題
商品描述
本書從原理的角度,力求講解清楚深度學習、強化學習、深度強化學習中的一些精選方法,並從實踐的角度,通過一系列循序漸進的原創實驗,引領讀者獨立編程實現這些方法,以期為讀者精通深度強化學習並應用深度強化學習方法解決實際問題奠定堅實基礎。 本書不僅適合電腦科學與技術、人工智能、物聯網工程、數據科學與大數據、軟件工程、通信工程、電子信息、機器人工程、自動化、智能製造等相關專業高年級本科生及研究生教學與自學使用,也適合機器學習等領域的從業者、科研人員及愛好者自學與參考使用。
作者簡介
陳喆,美國田納西理工大學博士。2003年碩士畢業後在UT斯達康、意法半導體等企業工作多年。2011年博士畢業後在東北大學物聯網工程專業任副教授、碩士研究生導師。曾任東北大學物聯網工程研究所副所長、無錫(濱湖)國家傳感信息中心副主任(掛職),曾在美國北卡羅來納州立大學訪學。主要研究方向包括物聯網無線通信、機器學習、認知無線電等。講授機器學習、物聯網技術、物聯網通信技術、無線傳感網絡概論、無線傳感網絡實驗、創業基礎、創新創業活動、High-Performance Embedded System Design等課程。編著《物聯網無線通信原理與實踐》。多次被學生評選為“我最喜愛的老師”,所負責的課程多次被學生評選為“我最喜愛的專業課程”。
目錄大綱
目錄
第1章引言1
1.1深度強化學習及其簡史1
1.2深度強化學習的應用領域3
1.3深度強化學習方法的實現4
1.3.1NumPy庫和Matplotlib庫4
1.3.2PyTorch框架7
1.4本章實驗解析11
1.5本書各章聯系14
1.6本章小結14
1.7思考與練習15
第2章從神經網絡到深度學習16
2.1神經網絡回顧16
2.1.1神經網絡的推測過程17
2.1.2神經網絡的訓練過程18
2.1.3神經網絡實踐23
2.2從神經網絡到深度神經網絡26
2.3深度神經網絡29
2.3.1深度神經網絡的推測過程29
2.3.2深度神經網絡的訓練過程30
2.3.3反向模式自動微分34
2.3.4深度神經網絡實踐及分析35
2.4捲積神經網絡37
2.4.1捲積層和合並層38
2.4.2捲積神經網絡實踐41
2.5循環神經網絡42
2.6本章實驗解析45
2.7本章小結51
2.8思考與練習52第3章強化學習基礎53
3.1強化學習概述53
3.1.1多老虎機問題53
3.1.2利用與探索57
3.1.3強化學習的要素58
3.2有限馬爾可夫決策過程59
3.2.1狀態與馬爾可夫性59
3.2.2什麼是有限馬爾可夫決策過程60
3.2.3收益與策略63
3.3求解MDP65
3.3.1貝爾曼方程與貝爾曼最優方程65
3.3.2價值疊代69
3.3.3策略評估74
3.3.4策略疊代77
3.3.5廣義策略疊代82
3.4本章實驗解析85
3.5本章小結90
3.6思考與練習90
深度強化學習原理與實踐目錄第4章行動價值方法92
4.1行動價值與最優行動價值92
4.1.1行動價值92
4.1.2最優行動價值96
4.2蒙特卡洛方法99
4.3Q學習107
4.4DynaQ114
4.5使用監督學習方法推測最優行動價值的極限值118
4.6使用深度神經網絡推測最優行動價值的極限值124
4.7本章實驗解析129
4.8本章小結136
4.9思考與練習136
第5章策略梯度方法138
5.1策略梯度基本方法138
5.2蒙特卡洛策略梯度方法142
5.2.1各個行動的蒙特卡洛策略梯度方法142
5.2.2單個行動的蒙特卡洛策略梯度方法147
5.2.3平移的蒙特卡洛策略梯度方法149
5.3行動評價方法154
5.4不完全觀測160
5.5本章實驗解析163
5.6本章小結168
5.7思考與練習169
附錄A實驗參考程序及註釋171
參考文獻231



