Python 深度強化學習 : 基於 Chainer 和 OpenAI Gym
[日]牧野 浩二(Koji Makino),[日]西崎 博光(Hiromitsu Nishizaki) 申富饒//於僡
- 出版商: 機械工業
- 出版日期: 2021-10-01
- 定價: $474
- 售價: 8.5 折 $403
- 語言: 簡體中文
- 頁數: 228
- 裝訂: 平裝
- ISBN: 7111692586
- ISBN-13: 9787111692584
-
相關分類:
Reinforcement、Python
立即出貨 (庫存 < 4)
買這商品的人也買了...
-
$403程序員的數學2 : 概率統計 -
Python 深度學習實作:Keras 快速上手$500$390 -
$352Python 強化學習實戰 : 應用 OpenAI Gym 和 TensorFlow 精通強化學習和深度強化學習 -
$280深度學習基礎教程 -
用 Python 實作強化學習|使用 TensorFlow 與 OpenAI Gym (Hands-On Reinforcement Learning with Python)$520$411 -
實戰人工智慧之深度強化學習|使用 PyTorch x Python$500$395 -
動手做深度強化學習 (Deep Reinforcement Learning Hands-On)$690$538 -
$327邊做邊學深度強化學習:PyTorch 程序設計實踐 -
$230TensorFlow 強化學習快速入門指南使用 Python 動手搭建自學習的智能體 (Tensorflow Reinforcement Learning Quick Start Guide) -
Kubernetes 最佳實務 : 成功部署應用程式的藍圖 (Kubernetes Best Practices: Blueprints for Building Successful Applications on Kubernetes)$520$411 -
$374強化學習入門:從原理到實踐 -
Python for DevOps|學習精準有效的自動化 (Python for Devops: Learn Ruthlessly Effective Automation)$780$616 -
原來世界是這樣運轉的:微服務架構原理與實戰$780$616 -
機器學習設計模式 (Machine Learning Design Patterns: Solutions to Common Challenges in Data Preparation, Model Building, and Mlops)$680$537 -
$305深度強化學習 -
AWS 自學聖經:5大必學雲端主題・超圖解入門 (全彩印刷)$690$545 -
$764演化學習 理論與算法進展 精裝版 -
$662程序員數學 : 用 Python 學透線性代數和微積分 (Math for Programmers: 3D graphics, machine learning, and simulations with Python) -
$663JavaScript 面向對象編程指南, 3/e -
Natural Language Processing with Transformers: Building Language Applications with Hugging Face (Paperback)$2,100$1,995 -
PyTorch 深度學習入門與應用:必備實作知識與工具一本就學會$600$468 -
$713Linux 高性能網絡詳解:從 DPDK、RDMA 到 XDP -
$449基於 Python 的強化學習 (Reinforcement Learning Algorithms with Python : Learn, understand, and develop smart algorithms for addressing AI challenges) -
深度強化學習實戰 用 OpenAI Gym 構建智能體$419$398 -
Deep Learning 4|用 Python 進行強化學習的開發實作$680$537
中文年末書展|繁簡參展書2書75折 詳見活動內容 »
-
75折
為你寫的 Vue Components:從原子到系統,一步步用設計思維打造面面俱到的元件實戰力 (iThome 鐵人賽系列書)$780$585 -
75折
BDD in Action, 2/e (中文版)$960$720 -
75折
看不見的戰場:社群、AI 與企業資安危機$750$563 -
79折
AI 精準提問 × 高效應用:DeepSeek、ChatGPT、Claude、Gemini、Copilot 一本搞定$390$308 -
7折
超實用!Word.Excel.PowerPoint 辦公室 Office 365 省時高手必備 50招, 4/e (暢銷回饋版)$420$294 -
75折
裂縫碎光:資安數位生存戰$550$412 -
85折
日本當代最強插畫 2025 : 150位當代最強畫師豪華作品集$640$544 -
79折
Google BI 解決方案:Looker Studio × AI 數據驅動行銷實作,完美整合 Google Analytics 4、Google Ads、ChatGPT、Gemini$630$498 -
79折
超有料 Plus!職場第一實用的 AI 工作術 - 用對 AI 工具、自動化 Agent, 讓生產力全面進化!$599$473 -
75折
從零開始學 Visual C# 2022 程式設計, 4/e (暢銷回饋版)$690$518 -
75折
Windows 11 制霸攻略:圖解 AI 與 Copilot 應用,輕鬆搞懂新手必學的 Windows 技巧$640$480 -
75折
精準駕馭 Word!論文寫作絕非難事 (好評回饋版)$480$360 -
Sam Yang 的插畫藝術:用 Procreate / PS 畫出最強男友視角 x 女孩美好日常$699$629 -
79折
AI 加持!Google Sheets 超級工作流$599$473 -
78折
想要 SSR? 快使用 Nuxt 吧!:Nuxt 讓 Vue.js 更好處理 SEO 搜尋引擎最佳化(iThome鐵人賽系列書)$780$608 -
75折
超實用!業務.總管.人資的辦公室 WORD 365 省時高手必備 50招 (第二版)$500$375 -
7折
Node-RED + YOLO + ESP32-CAM:AIoT 智慧物聯網與邊緣 AI 專題實戰$680$476 -
79折
「生成式⇄AI」:52 個零程式互動體驗,打造新世代人工智慧素養$599$473 -
7折
Windows APT Warfare:惡意程式前線戰術指南, 3/e$720$504 -
75折
我輩程式人:回顧從 Ada 到 AI 這條程式路,程式人如何改變世界的歷史與未來展望 (We, Programmers: A Chronicle of Coders from Ada to AI)$850$637 -
75折
不用自己寫!用 GitHub Copilot 搞定 LLM 應用開發$600$450 -
79折
Tensorflow 接班王者:Google JAX 深度學習又快又強大 (好評回饋版)$780$616 -
79折
GPT4 會你也會 - 共融機器人的多模態互動式情感分析 (好評回饋版)$700$553 -
79折
技術士技能檢定 電腦軟體應用丙級術科解題教本|Office 2021$460$363 -
75折
Notion 與 Notion AI 全能實戰手冊:生活、學習與職場的智慧策略 (暢銷回饋版)$560$420
相關主題
商品描述
近年來,機器學習受到了人們的廣泛關註。
本書面向普通大眾,指導讀者在Python(基於Chainer和OpenAI Gym)中實踐深度強化學習。
讀者只需要具備一些基本的編程經驗即可讀懂書中內容,通過實現具體程序來掌握深度強化學習的相關知識。
本書內容: 介紹深度學習、強化學習和深度強化學習的基本知識。
通過多種實際對戰遊戲(如太空侵略者、吃豆人)來介紹算法,如ε-greedy算法。
使用Anaconda設置本地PC,在倒立擺和老鼠學習問題中實現深度強化學習。
使用Python實現MNIST手寫數字分類任務。實現深度強化學習的基本算法DQN。
詳解繼DQN之後提出的新的深度強化學習技術(DDQN、PER-DQN、DDPG和A3C等)。
作者簡介
Hiromitsu Nishizaki
豐橋技術科學大學博士,現為山梨大學大學院綜合研究部工學領域的副教授。
主要致力於語音信息處理的研究,尤其是語音識別和語音文檔檢索的研究
(即從大規模語音數據庫中找到相應語音的研究)。
目錄大綱
譯者序
前言
第1章 引言 1
1.1 深度強化學習可以做什麼 1
1.2 本書的結構 4
1.3 框架:Chainer和ChainerRL 6
1.4 Python的運行檢查 6
1.5 Chainer的安裝 9
1.6 ChainerRL的安裝 12
1.7 模擬器:OpenAI Gym 14
第2章 深度學習 17
2.1 什麼是深度學習 17
2.2 神經網絡 18
2.3 基於Chainer的神經網絡 21
2.3.1 Chainer與神經網絡的對應 24
2.3.2 Chainer程序 25
2.3.3 參數設置 26
2.3.4 創建數據 27
2.3.5 定義神經網絡 27
2.3.6 各種聲明 28
2.3.7 顯示訓練狀態 28
2.3.8 保存訓練狀態 31
2.3.9 執行訓練 32
2.4 與其他神經網絡的對應 32
2.4.1 感知器 32
2.4.2 5層神經網絡(深度學習) 33
2.4.3 計算輸入中的1的數量 34
2.5 基於深度神經網絡的手寫數字識別 35
2.5.1 手寫數字的輸入格式 36
2.5.2 深度神經網絡的結構 39
2.5.3 8×8的手寫數字數據 41
2.6 基於捲積神經網絡的手寫數字識別 43
2.6.1 捲積 45
2.6.2 激活函數 49
2.6.3 池化 49
2.6.4 執行 50
2.7 一些技巧 53
2.7.1 讀取文件數據 54
2.7.2 使用訓練模型 55
2.7.3 重啟訓練 56
2.7.4 檢查權重 56
2.7.5 從文件中讀取手寫數字 57
第3章 強化學習 59
3.1 什麼是強化學習 59
3.1.1 有監督學習 60
3.1.2 無監督學習 60
3.1.3 半監督學習 60
3.2 強化學習原理 61
3.3 通過簡單的示例來學習 61
3.4 應用到Q學習問題中 63
3.4.1 狀態 63
3.4.2 行動 63
3.4.3 獎勵 63
3.4.4 Q值 64
3.5 使用Python進行訓練 67
3.5.1 運行程序 67
3.5.2 說明程序 69
3.6 基於OpenAI Gym的倒立擺 73
3.6.1 運行程序 73
3.6.2 說明程序 74
3.7 如何保存和加載Q值 79
第4章 深度強化學習 81
4.1 什麼是深度強化學習 81
4.2 對於老鼠學習問題的應用 83
4.2.1 運行程序 83
4.2.2 說明程序 85
4.2.3 如何保存和讀取智能體模型 91
4.3 基於OpenAI Gym的倒立擺 91
4.3.1 運行程序 91
4.3.2 說明程序 92
4.4 基於OpenAI Gym的太空侵略者 97
4.5 基於OpenAI Gym的顛球 99
4.5.1 運行程序 101
4.5.2 說明程序 102
4.6 對戰遊戲 109
4.6.1 黑白棋 109
4.6.2 訓練方法 111
4.6.3 變更盤面 121
4.6.4 黑白棋實體 121
4.6.5 如何與人類對戰 123
4.6.6 捲積神經網絡的應用 127
4.7 使用物理引擎進行模擬 128
4.7.1 物理引擎 129
4.7.2 運行程序 130
4.7.3 說明程序 131
4.8 物理引擎在顛球問題中的應用 132
4.9 物理引擎在倒立擺問題中的應用 140
4.10 物理引擎在機械臂問題中的應用 144
4.11 使用其他深度強化學習方法 151
4.11.1 深度強化學習的類型 151
4.11.2 將訓練方法更改為DDQN 153
4.11.3 將訓練方法更改為PER-DQN 153
4.11.4 將訓練方法更改為DDPG 153
4.11.5 將訓練方法更改為A3C 155
第5章 實際環境中的應用 157
5.1 使用攝像機觀察環境(MNIST) 157
5.1.1 攝像機設置 158
5.1.2 通過捲積神經網絡對攝像機圖像進行分類 160
5.1.3 使用圖像大小為28×28的手寫數字進行訓練 163
5.2 實際環境中的老鼠學習問題 164
5.3 使用Raspberry Pi處理老鼠學習問題 168
5.3.1 環境構建 169
5.3.2 以輸入輸出為重點的簡化 169
5.3.3 使用攝像機測量環境 176
5.4 使用Arduino PC處理老鼠學習問題 181
5.4.1 環境構建 182
5.4.2 以輸入輸出為重點的簡化 185
5.4.3 使用攝像機測量環境 193
5.5 使用Raspberry Pi Arduino處理老鼠學習問題 197
5.6 結語 201
附錄 202
