Python 深度強化學習入門：強化學習和深度學習的搜索與控制

伊藤多一等

出版商: 機械工業
出版日期: 2022-04-14
定價: $534
售價: 7.9 折 $422
語言: 簡體中文
頁數: 240
裝訂: 平裝
ISBN: 7111700724
ISBN-13: 9787111700722
相關分類: Reinforcement

立即出貨 (庫存 < 4)

買這商品的人也買了...

$374

21個項目玩轉深度學習 -- 基於 TensorFlow 的實踐詳解
$327

Keras深度學習實戰
~~$450~~ $351

Docker 專業養成 ─ 活用基礎與實踐技能 (暢銷回饋版)
$352

Python3 爬蟲、數據清洗與可視化實戰, 2/e
$454

ECharts 數據可視化：入門、實戰與進階
~~$680~~ $537

必學！Python 資料科學‧機器學習最強套件－ NumPy、Pandas、Matplotlib、OpenCV、scikit-learn、tf.Keras
~~$680~~ $537

機器學習設計模式 (Machine Learning Design Patterns: Solutions to Common Challenges in Data Preparation, Model Building, and Mlops)
~~$539~~ $512

用 Python 動手學強化學習 (全彩印刷)
~~$980~~ $774

新一代 AI 霸主：深度強化學習從基礎開始到專案開發
~~$474~~ $450

PyTorch 開發入門：深度學習模型的構建與程序實現
$378

CPU 通識課
$602

Docker 實戰派 — 容器入門七步法
~~$600~~ $540

數位影像處理－Python 程式實作, 3/e (附範例光碟)
~~$650~~ $507

Python 從初學到生活應用超實務 (電腦視覺與AI加強版)：讓 Python 幫你處理日常生活與工作中繁瑣重複的工作
~~$580~~ $452

數位與醫學的人工智慧影像處理技術：Python 實務
~~$780~~ $616

電腦視覺機器學習實務｜建立端到端的影像機器學習 (Practical Machine Learning for Computer Vision: End-To-End Machine Learning for Images)
~~$500~~ $390

Arduino 專題製作與應用：Python 連線控制篇
~~$680~~ $537

Python 資料科學實戰教本 - 爬蟲、清理、資料庫、視覺化、探索式分析、機器學習建模，數據工程一次搞定！
$454

大數據分析師面試筆試寶典
~~$720~~ $569

科學方法賺大錢 - Python 進行商品期貨量化交易
~~$980~~ $774

WebGL 建構網頁中的 3D遊戲從基礎渲染原理、光影到應用
$559

深度學習與目標檢測, 2/e
~~$780~~ $616

用最簡潔的 Python 上手 - 深度學習從精通再成大神
~~$880~~ $695

Python AI 人員必修的科學計算 - 數學、機率、統計、演算
~~$580~~ $458

生成式 AI 入門 – 揭開 LLM 潘朵拉的秘密 : 語言建模、訓練微調、隱私風險、合成媒體、認知作戰、社交工程、人機關係、AI Agent、OpenAI、DeepSeek (Introduction to Generative AI)

中文年末書展｜繁簡參展書2書75折詳見活動內容 »

75折
~~$780~~ $585

為你寫的 Vue Components：從原子到系統，一步步用設計思維打造面面俱到的元件實戰力 (iThome 鐵人賽系列書)
75折
~~$960~~ $720

BDD in Action, 2/e (中文版)
75折
~~$750~~ $563

看不見的戰場：社群、AI 與企業資安危機
79折
~~$390~~ $308

AI 精準提問 × 高效應用：DeepSeek、ChatGPT、Claude、Gemini、Copilot 一本搞定
7折
~~$420~~ $294

超實用！Word．Excel．PowerPoint 辦公室 Office 365 省時高手必備 50招, 4/e (暢銷回饋版)
75折
~~$550~~ $412

裂縫碎光：資安數位生存戰
85折
~~$640~~ $544

日本當代最強插畫 2025 : 150位當代最強畫師豪華作品集
79折
~~$630~~ $498

Google BI 解決方案：Looker Studio × AI 數據驅動行銷實作，完美整合 Google Analytics 4、Google Ads、ChatGPT、Gemini
79折
~~$599~~ $473

超有料 Plus！職場第一實用的 AI 工作術 - 用對 AI 工具、自動化 Agent, 讓生產力全面進化！
75折
~~$690~~ $518

從零開始學 Visual C# 2022 程式設計, 4/e (暢銷回饋版)
75折
~~$640~~ $480

Windows 11 制霸攻略：圖解 AI 與 Copilot 應用，輕鬆搞懂新手必學的 Windows 技巧
75折
~~$480~~ $360

精準駕馭 Word！論文寫作絕非難事 (好評回饋版)
~~$699~~ $629

Sam Yang 的插畫藝術：用 Procreate / PS 畫出最強男友視角 x 女孩美好日常
79折
~~$599~~ $473

AI 加持！Google Sheets 超級工作流
78折
~~$780~~ $608

想要 SSR? 快使用 Nuxt 吧!：Nuxt 讓 Vue.js 更好處理 SEO 搜尋引擎最佳化（iThome鐵人賽系列書）
78折
~~$500~~ $390

超實用！業務．總管．人資的辦公室 WORD 365 省時高手必備 50招 (第二版)
7折
~~$680~~ $476

Node-RED + YOLO + ESP32-CAM：AIoT 智慧物聯網與邊緣 AI 專題實戰
79折
~~$599~~ $473

「生成式⇄AI」：52 個零程式互動體驗，打造新世代人工智慧素養
7折
~~$720~~ $504

Windows APT Warfare：惡意程式前線戰術指南, 3/e
75折
~~$850~~ $637

我輩程式人：回顧從 Ada 到 AI 這條程式路，程式人如何改變世界的歷史與未來展望 (We, Programmers: A Chronicle of Coders from Ada to AI)
75折
~~$600~~ $450

不用自己寫！用 GitHub Copilot 搞定 LLM 應用開發
79折
~~$780~~ $616

Tensorflow 接班王者：Google JAX 深度學習又快又強大 (好評回饋版)
79折
~~$700~~ $553

GPT4 會你也會 - 共融機器人的多模態互動式情感分析 (好評回饋版)
79折
~~$460~~ $363

技術士技能檢定電腦軟體應用丙級術科解題教本｜Office 2021
75折
~~$560~~ $420

Notion 與 Notion AI 全能實戰手冊：生活、學習與職場的智慧策略 (暢銷回饋版)

商品描述

《Python深度強化學習入門：強化學習和深度學習的搜索與控制》共7章。
其中，第1章介紹了機器學習的分類、強化學習的學習機制以及深度強化學習的概念；
第2章通過強化學習的基本概念、馬爾科夫決策過程和貝爾曼方程、貝爾曼方程的求解方法、無模型控制等介紹了強化學習的基本算法；
第3章通過深度學習、捲積神經網絡（CNN）、循環神經網絡（RNN）介紹了強化學習中深度學習的特徵提取方法；
第4章通過行動價值函數的網絡表示、策略函數的網絡表示介紹了深度強化學習的實現；
第5章通過策略梯度法的連續控制、學習算法和策略模型等，詳細介紹了深度強化學習在連續控制問題中的應用及具體實現；
第6章通過巡迴推銷員問題和魔方問題詳細介紹了深度強化學習在組合優化中的應用及具體實現；
第7章通過SeqGAN的文本生成和神經網絡的架構搜索詳細介紹了深度強化學習在時間序列數據生成的應用。
在附錄中還給出了Colaboratory和Docker等深度強化學習開發環境的構建。

作者簡介

伊藤多一，1995年在名古屋大學理學研究所完成博士課程，井獲得博士學位。後一直從事粒子物理學研究，直到2004年3月。同年，加入了一家專門從事合同數據分析的風險公司，井參與了多個數據分析項目。自2013年以來，他一直在BrainPad公司從事機器學習的廣告效果分析工作。自2016年以來，通過深度學習參與了圖像分析項目。

目錄大綱

目錄
譯者序
原書前言
閱讀本書需要的知識基礎
本書的結構
本書示例的運行環境

1.1 機器學習的分類004
1.1.1 監督學習005
1.1.2 無監督學習006
1.1.3 強化學習007
1.2 強化學習的學習機制008
1.3 深度強化學習011

2.1 強化學習的基本概念014
2.1.1 強化學習的問題設定014
2.1.2 強化學習的機制014
2.1.3 關於本章的內容016
2.2 馬爾可夫決策過程和貝爾曼方程017
2.2.1 馬爾可夫決策過程017
2.2.2 貝爾曼方程020
2.3 貝爾曼方程的求解方法024
2.3.1 動態規劃法024
2.3.2 蒙特卡洛法031
2.3.3 TD學習法033
2.4 無模型控制037
2.4.1 策略改進的方法037
2.4.2 基於價值的方法038
2.4.3 基於策略的方法043
2.4.4 Actor-Critic法049

3.1 深度學習056
3.1.1 深度學習的出現和背景056
3.1.2 什麼是深度學習？ 056
3.1.3 深度學習平臺062
3.2 CNN067
3.2.1 什麼是CNN067
3.2.2 CNN的應用071
3.3 RNN074
3.3.1 什麼是RNN074
3.3.2 什麼是LSTM079
3.3.3 RNN的應用081

4.1 深度強化學習的發展086
4.1.1 DQN的出現086
4.1.2 用於強化學習的模擬器086
4.2 行動價值函數的網絡表示089
4.2.1 DQN算法089
4.2.2 DQN算法的實現092
4.2.3 學習結果099
4.3 策略函數的網絡表示101
4.3.1 Actor的實現101
4.3.2 Critic的實現101
4.3.3 示例代碼的介紹102
4.3.4 學習結果108

5.1 策略梯度法的連續控制114
5.1.1 連續控制114
5.1.2 策略梯度法學習114
5.2 學習算法和策略模型117
5.2.1 算法概況117
5.2.2 REINFORCE算法118
5.2.3 基準函數的引入118
5.2.4 高斯模型的策略概率119
5.3 連續行動模擬器121
5.3.1 pybullet-gym121
5.3.2 Walker2D122
5.4 算法的實現126
5.4.1 算法實現的總體構成126
5.4.2 train.py127
5.4.3 policy_estimator.py129
5.4.4 value_estimator.py132
5.5 學習結果及預測控制134
5.5.1 學習結果134
5.5.2 預測控制的結果136
5.5.3 其他環境模型的應用137
5.5.4 總結140

6.1 組合優化中的應用144
6.1.1 關於組合優化144
6.2 巡迴推銷員問題145
6.2.1 通過強化學習解決巡迴推銷員問題145
6.2.2 實現概要147
6.2.3 運行結果155
6.2.4 今後的發展趨勢157
6.3 魔方問題158
6.3.1 用強化學習解決魔方問題158
6.3.2 實現概要161
6.3.3 實現結果171
6.3.4 AC+MCTS算法的預測結果173
6.3.5 今後的發展趨勢177
6.4 總結179

7.1 根據SeqGAN的文本生成182
7.1.1 GAN182
7.1.2 SeqGAN183
7.1.3 輸入數據185
7.1.4 使用的算法及其實現187
7.1.5 實現結果195
7.1.6 總結198
7.2 神經網絡架構的搜索198
7.2.1 神經體系結構搜索198
7.2.2 語義分割199
7.2.3 U-Net200
7.2.4 文件目錄結構201
7.2.5 輸入數據201
7.2.6 所使用的算法204
7.2.7 實現結果213
7.2.8 總結215 
附錄A Colaboratory的GPU環境構建218
A.1 Colaboratory218
A.2 Colaboratory的使用方法218
附錄B 通過Docker進行Windows環境的構建222
B.1 介紹222
B.2 Docker的安裝222
B.3 Docker映像的創建228
B.4 容器的啟動232
B.5 運行情況的查看234
參考文獻238