擴散模型 — 核心原理與強化學習優化

陳雲牛雅哲張金歐文

出版商: 機械工業
出版日期: 2025-11-01
定價: $479
售價: 7.9 折 $378 (限時優惠至 2026-03-31)
語言: 簡體中文
頁數: 178
ISBN: 7115676127
ISBN-13: 9787115676122
相關分類: Reinforcement

立即出貨

買這商品的人也買了...

~~$520~~ $468

物聯網實作：工業4.0基礎篇, 2/e (附光碟)
$248

編程風格 : 好代碼的邏輯 (Exercises in Programming Style)
~~$360~~ $352

實用深度學習
~~$300~~ $255

最新圖解馬達入門
~~$750~~ $638

NumPy 高速運算徹底解說 - 六行寫一隻程式？你真懂深度學習？手工算給你看！
$453

深入淺出神經網絡與深度學習
~~$560~~ $476

超端新世代網路概論, 2/e
~~$414~~ $393

MATLAB 神經網絡 43個案例分析
$400

神經網絡設計與實現
~~$539~~ $512

貝葉斯統計導論
~~$780~~ $616

Python 資料分析必備套件！Pandas 資料清理、重塑、過濾、視覺化 (Pandas 1.x Cookbook, 2/e)
~~$420~~ $331

網頁設計丙級檢定學術科解題教本｜111年啟用試題
~~$474~~ $450

代數大腦：揭秘智能背後的邏輯
~~$580~~ $522

人工智慧, 2/e
~~$600~~ $570

離散數學概論, 2/e
~~$1,200~~ $948

AI 必須！從做中學貝氏統計 – 從事機器學習、深度學習、資料科學、大數據分析一定要懂的統計利器 (Bayesian Statistics for Beginners: A Step-By-Step Approach)
$453

擴散模型：生成式 AI 模型的理論、應用與代碼實踐
$504

神經網絡建模與動態系統辨識
~~$1,200~~ $948

AI 工程｜從基礎模型建構應用 (AI Engineering : Building Applications with Foundation Models)
~~$1,536~~ $1,459

強化學習與隨機優化：序貫決策的通用框架
~~$1,250~~ $987

LLM 工程師開發手冊 (LLM Engineer's Handbook: Master the art of engineering large language models from concept to production)
~~$560~~ $442

零花費上手！Gemini 3 / NotebookLM / Nano Banana Pro / Veo 3.x 最強 AI 組合技，打造全能工作流
~~$620~~ $489

LLM 提示工程技術｜打造兼具藝術與科學的高效應用 (Prompt Engineering for LLMs: The Art and Science of Building Large Language Model-Based Applications)
~~$690~~ $545

Vibe Coding 提示詞全攻略! 從概念到業界實戰：提示工程 / 程式碼維護 / Cursor / ChatGPT Codex / Lovable
~~$980~~ $774

Effective Python 中文版｜寫出良好 Python 程式的 125個具體做法, 3/e (Effective Python: 125 Specific Ways to Write Better Python, 3/e)

商品描述

本書通過系統化的理論講解與實戰導向的案例分析，幫助讀者掌握擴散模型與強化學習的結合應用，探索其針對實際問題的解決方案。書中首先介紹了生成模型的發展史，特別是擴散模型的起源和核心思想，為讀者學習後續章節奠定基礎；然後深入探討了擴散模型在構建決策智能體、結合價值函數等方面的應用，還詳細講解了如何利用擴散模型解決軌跡優化和策略優化等問題；接下來探索了擴散模型在多任務泛化和世界模型建模方面的擴展應用，展示了其在覆雜環境中的適應性和靈活性；最後討論了利用強化學習優化擴散模型的新進展，以及擴散模型在決策問題上的前沿研究方向。

作者簡介

陳雲

北京大學智能科學與技術專業學士、軟件工程碩士，現任阿裏巴巴國際數字商業集團智能技術部推薦算法工程師，主要研究方向為生成式人工智能在智能推薦與商業廣告中的創新應用。曾於上海人工智能實驗室擔任研究員，深度參與開源強化學習平臺DI-engine的研發與維護，並在生成式策略學習與擴散模型方向持續輸出技術博客文章與開源實踐項目，目前多項研究成果發表於國際頂級會議及期刊。

牛雅哲

上海人工智能實驗室前沿探索中心研究員，開源決策智能組織OpenDILab（GitHub Star

數超2.7萬，為國內影響力廣泛的決策智能開源組織）負責人。曾在NeurIPS、ICLR、AAAI等機器學習頂級會議上發表多篇論文，在強化學習、分布式系統及大模型訓練基建等領域擁有多年研發經驗，長期致力於探索機器學習算法與系統設計優化相結合的最佳實踐路徑。

張金歐文

上海人工智能實驗室AI For Science中心算法工程師，研究方向為生成模型、強化學習、科學智能與工業智能。

目錄大綱

第 1 章　起源：擴散模型簡介 1

11　生成模型的發展史 1

12 擴散模型核心思想介紹 4

121 擴散過程及其逆過程 4

122　擴散模型的訓練 7

123　擴散模型的推斷 8

124　擴散模型的評價指標 9

125　擴散模型的類型 10

13　條件擴散模型 13

131　分類器引導采樣和無分類器引導采樣 13

132　ControlNet 15

14　擴散模型加速采樣方法 17

141　training-free 加速采樣方法 18

142　training-based 加速采樣方法24

參考文獻27

第 2 章　基石：擴散模型與軌跡優化問題 29

21　離線強化學習 29

22　第一個基於擴散模型的決策智能體：Plan Diffuser 31

221　以軌跡片段為對象的擴散模型 31

222　Plan Diffuser 的建模與優化 32

223　Plan Diffuser 的特性 39

224　從實驗中解析 Plan Diffuser 40

225　靈活的測試目標 42

226　離線強化學習 43

227　擴散模型熱啟動 44

23　條件生成決策模型的集大成者：Decision Diffuser 45

231　Decision Diffuser 的建模與優化 45

232　回報以外的條件變量 47

24　代碼實戰 54

241　導入第三方庫 54

242　準備數據集 54

243　配置擴散模型 56

244　實例化擴散模型 57

245　訓練條件擴散模型 57

246　條件采樣 58

參考文獻60

第 3 章　基石：擴散模型與價值函數的結合 61

31　強化學習中基於價值函數的策略優化 61

32 Diffusion-QL ：高效建模離線數據集中的行為策略 62

33 CEP 和 QGPO ：借助能量函數設計新的引導器 64

331　對比能量預測法 65

332　基於 Q 價值函數引導的策略優化 69

34 LDCQ ：擴散模型約束下的 Q-learning 77

341　背景知識 78

342　隱空間擴散強化學習 80

343　以目標為條件的隱空間擴散模型 84

344　實驗與分析 84

345　局限性與展望 88

參考文獻89

第 4 章　基石：擴散模型訓練技巧指南 90

41　如何設計去噪網絡 90

411　U-Net 90

412　DiT 92

413　文本編碼器 98

42　如何設計訓練方案 99

421　連續時間擴散模型的訓練 99

422　擴散過程的設計與選擇 100

423　擴散模型建模目標與訓練方式的選擇 102

43　如何選擇擴散模型的類型 104

44　代碼實戰 105

參考文獻 106

第 5 章　擴展：多任務泛化 108

51　離線元強化學習 108

52 MetaDiffuser 108

521　面向任務的上下文編碼器 109

522　條件擴散模型架構 110

523　雙引導增強規劃器 111

參考文獻 112

第 6 章　擴展：世界模型建模 113

61 世界模型簡介 113

62 基於 RNN 的世界模型 114

621　論文“World Models” 114

622　DreamerV3 115

63　基於 Transformer 的世界模型 122

631　IRIS 122

632　TWM 124

633　STORM 124

64　基於擴散模型的世界模型 126

641　擴散範式的最佳實踐126

642　實驗結果 129

參考文獻 132

第 7 章　反轉：用強化學習來優化擴散模型 133

71　引言 133

72 DDPO ：將去噪過程建模為序列決策過程 133

721　將擴散模型建模為多步 MDP 135

722　策略梯度估計 136

723　各種獎勵模型下的采樣表現 136

73 Diffusion-DPO ：運用於擴散模型的直接偏好優化 139

731　從 RLHF 到 DPO 140

732　將 RLHF 用於文本圖像對齊 141

733　將 DPO 用於文本圖像對齊 142

734　將 DPO 用於擴散模型優化 143

735　文本圖像對齊實驗 145

736　從強化學習角度推導 Diffusion-DPO 147

74 DRaFT ：通過可微分獎勵函數直接優化擴散模型 149

741　DRaFT 149

742　DRaFT-K 150

743　DRaFT-LV 151

744　實驗結果 151

75　代碼實戰 152

參考文獻 157

第 8 章　擴展：擴散模型在決策問題上的新進展 158

81　基於生成模型的強化學習策略 158

82　決策基模型中的擴散模型 161

821　ViNT 162

822　NoMaD 166

823　SuSIE 170

83　總結與展望 177

參考文獻 177

擴散模型 — 核心原理與強化學習優化

陳雲牛雅哲張金歐文

買這商品的人也買了...

相關主題

商品描述

作者簡介

目錄大綱

類似商品

最後瀏覽商品 (11)

擴散模型 — 核心原理與強化學習優化

陳雲 牛雅哲 張金歐文

買這商品的人也買了...

相關主題

商品描述

作者簡介

目錄大綱

類似商品

最後瀏覽商品 (11)

陳雲牛雅哲張金歐文