擴散模型——核心原理與強化學習優化

陳雲 牛雅哲 張金歐文

  • 出版商: 機械工業
  • 出版日期: 2025-11-01
  • 售價: $480
  • 語言: 簡體中文
  • 頁數: 178
  • ISBN: 7115676127
  • ISBN-13: 9787115676122
  • 相關分類: Reinforcement
  • 下單後立即進貨 (約4週~6週)

買這商品的人也買了...

相關主題

商品描述

本書通過系統化的理論講解與實戰導向的案例分析,幫助讀者掌握擴散模型與強化學習的結合應用,探索其針對實際問題的解決方案。書中首先介紹了生成模型的發展史,特別是擴散模型的起源和核心思想,為讀者學習後續章節奠定基礎;然後深入探討了擴散模型在構建決策智能體、結合價值函數等方面的應用,還詳細講解了如何利用擴散模型解決軌跡優化和策略優化等問題;接下來探索了擴散模型在多任務泛化和世界模型建模方面的擴展應用,展示了其在覆雜環境中的適應性和靈活性;最後討論了利用強化學習優化擴散模型的新進展,以及擴散模型在決策問題上的前沿研究方向。

作者簡介

陳雲

北京大學智能科學與技術專業學士、軟件工程碩士,現任阿裏巴巴國際數字商業集團智能技術部推薦算法工程師,主要研究方向為生成式人工智能在智能推薦與商業廣告中的創新應用。曾於上海人工智能實驗室擔任研究員,深度參與開源強化學習平臺DI-engine的研發與維護,並在生成式策略學習與擴散模型方向持續輸出技術博客文章與開源實踐項目,目前多項研究成果發表於國際頂級會議及期刊。

牛雅哲

上海人工智能實驗室前沿探索中心研究員,開源決策智能組織OpenDILab(GitHub Star

數超2.7萬,為國內影響力廣泛的決策智能開源組織)負責人。曾在NeurIPS、ICLR、AAAI等機器學習頂級會議上發表多篇論文,在強化學習、分布式系統及大模型訓練基建等領域擁有多年研發經驗,長期致力於探索機器學習算法與系統設計優化相結合的最佳實踐路徑。

張金歐文

上海人工智能實驗室AI For Science中心算法工程師,研究方向為生成模型、強化學習、科學智能與工業智能。

目錄大綱

第 1 章 起源:擴散模型簡介 1

11 生成模型的發展史 1

12 擴散模型核心思想介紹 4

121 擴散過程及其逆過程 4

122 擴散模型的訓練 7

123 擴散模型的推斷 8

124 擴散模型的評價指標 9

125 擴散模型的類型 10

13 條件擴散模型 13

131 分類器引導采樣和無分類器引導采樣 13

132 ControlNet 15

14 擴散模型加速采樣方法 17

141 training-free 加速采樣方法 18

142 training-based 加速采樣方法24

參考文獻27

第 2 章 基石:擴散模型與軌跡優化問題 29

21 離線強化學習 29

22 第 一個基於擴散模型的決策智能體:Plan Diffuser 31

221 以軌跡片段為對象的擴散模型 31

222 Plan Diffuser 的建模與優化 32

223 Plan Diffuser 的特性 39

224 從實驗中解析 Plan Diffuser 40

225 靈活的測試目標 42

226 離線強化學習 43

227 擴散模型熱啟動 44

23 條件生成決策模型的集大成者:Decision Diffuser 45

231 Decision Diffuser 的建模與優化 45

232 回報以外的條件變量 47

24 代碼實戰 54

241 導入第三方庫 54

242 準備數據集 54

243 配置擴散模型 56

244 實例化擴散模型 57

245 訓練條件擴散模型 57

246 條件采樣 58

參考文獻60

第 3 章 基石:擴散模型與價值函數的結合 61

31 強化學習中基於價值函數的策略優化 61

32 Diffusion-QL :高效建模離線數據集中的行為策略 62

33 CEP 和 QGPO :借助能量函數設計新的引導器 64

331 對比能量預測法 65

332 基於 Q 價值函數引導的策略優化 69

34 LDCQ :擴散模型約束下的 Q-learning 77

341 背景知識 78

342 隱空間擴散強化學習 80

343 以目標為條件的隱空間擴散模型 84

344 實驗與分析 84

345 局限性與展望 88

參考文獻89

第 4 章 基石:擴散模型訓練技巧指南 90

41 如何設計去噪網絡 90

411 U-Net 90

412 DiT 92

413 文本編碼器 98

42 如何設計訓練方案 99

421 連續時間擴散模型的訓練 99

422 擴散過程的設計與選擇 100

423 擴散模型建模目標與訓練方式的選擇 102

43 如何選擇擴散模型的類型 104

44 代碼實戰 105

參考文獻 106

第 5 章 擴展:多任務泛化 108

51 離線元強化學習 108

52 MetaDiffuser 108

521 面向任務的上下文編碼器 109

522 條件擴散模型架構 110

523 雙引導增強規劃器 111

參考文獻 112

第 6 章 擴展:世界模型建模 113

61 世界模型簡介 113

62 基於 RNN 的世界模型 114

621 論文“World Models” 114

622 DreamerV3 115

63 基於 Transformer 的世界模型 122

631 IRIS 122

632 TWM 124

633 STORM 124

64 基於擴散模型的世界模型 126

641 擴散範式的最佳實踐126

642 實驗結果 129

參考文獻 132

第 7 章 反轉:用強化學習來優化擴散模型 133

71 引言 133

72 DDPO :將去噪過程建模為序列決策過程 133

721 將擴散模型建模為多步 MDP 135

722 策略梯度估計 136

723 各種獎勵模型下的采樣表現 136

73 Diffusion-DPO :運用於擴散模型的直接偏好優化 139

731 從 RLHF 到 DPO 140

732 將 RLHF 用於文本圖像對齊 141

733 將 DPO 用於文本圖像對齊 142

734 將 DPO 用於擴散模型優化 143

735 文本圖像對齊實驗 145

736 從強化學習角度推導 Diffusion-DPO 147

74 DRaFT :通過可微分獎勵函數直接優化擴散模型 149

741 DRaFT 149

742 DRaFT-K 150

743 DRaFT-LV 151

744 實驗結果 151

75 代碼實戰 152

參考文獻 157

第 8 章 擴展:擴散模型在決策問題上的新進展 158

81 基於生成模型的強化學習策略 158

82 決策基模型中的擴散模型 161

821 ViNT 162

822 NoMaD 166

823 SuSIE 170

83 總結與展望 177

參考文獻 177