擴散模型從原理到實戰
李忻瑋 蘇步升 徐浩然 餘海銘
- 出版商: 人民郵電
- 出版日期: 2023-08-01
- 售價: $479
- 貴賓價: 9.5 折 $455
- 語言: 簡體中文
- 頁數: 224
- ISBN: 7115618879
- ISBN-13: 9787115618870
-
相關分類:
DeepLearning、DeepLearning
立即出貨
買這商品的人也買了...
-
GAN 對抗式生成網路 (GANs in Action: Deep learning with Generative Adversarial Networks)$750$593 -
深度強化式學習 (Deep Reinforcement Learning in Action)$1,000$850 -
Deep Learning 3|用 Python 進行深度學習框架的開發實作$780$616 -
核心開發者親授!PyTorch 深度學習攻略 (Deep Learning with Pytorch)$1,000$790 -
深度學習的 16 堂課:CNN + RNN + GAN + DQN + DRL, 看得懂、學得會、做得出! (Deep Learning Illustrated: A Visual, Interactive Guide to Artificial Intelligence)$620$527 -
Keras 大神歸位:深度學習全面進化!用 Python 實作 CNN、RNN、GRU、LSTM、GAN、VAE、Transformer$1,200$948 -
AI 開發的機器學習系統設計模式$620$490 -
深度強化學習圖解$834$792 -
$458BERT 基礎教程:Transformer 大模型實戰 -
雷達輻射式模擬信號分析與處理$588$559 -
$469精通 Transformer : 從零開始構建最先進的 NLP 模型 -
AIGC 自動化編程:基於 ChatGPT 和 GitHub Copilot$479$455 -
$454擴散模型:生成式 AI 模型的理論、應用與代碼實踐 -
$356搜尋演算法:人工智能如何尋找最優 -
$469多模態深度學習技術基礎 -
$602預測模型實戰:基於R、SPSS和Stata -
$422從零開始大模型開發與微調:基於 PyTorch 與 ChatGLM -
$551ChatGPT 實應用大全 (全影片·彩色版) -
$356ChatGPT 寫作超簡單 -
自然語言處理與醫療文本的知識抽取$539$512 -
Hugging Face 模型及資料大公開 - 利用 BERT 建立全中文 NLP 應用$720$569 -
多模態大模型:技術原理與實戰$600$570 -
Generative AI - Diffusion Model 擴散模型現場實作精解$720$569 -
$564大語言模型:原理與工程實踐 -
$658AIGC 原理與實務:零基礎學大語言模型、擴散模型與多模態模型
簡體館年度書展|現貨2書79折3書75折 詳見活動內容 »
-
VIP 95折
深入淺出 SSD 測試 : 固態存儲測試流程 方法與工具$594$564 -
VIP 95折
MCP 開發從入門到實戰$515$489 -
85折
$806Linux x64 匯編語言編程 -
VIP 95折
MCP 極簡開發 : 輕鬆打造高效智能體$479$455 -
VIP 95折
RISC-V 架構 DSP 處理器設計$534$507 -
VIP 95折
硬件系統模糊測試:技術揭秘與案例剖析$419$398 -
85折
$454RAG 實踐權威指南:構建精準、高效大模型之道 -
VIP 95折
CUDA 並行編程與性能優化$714$678 -
VIP 95折
生成式視覺模型原理與實踐$288$274 -
87折
$459AI大模型:賦能通信產業 -
VIP 95折
科學預測——預見科學之美$408$388 -
VIP 95折
Processing創意編程入門:從編程原理到項目案例$299$284 -
VIP 95折
大模型驅動的具身智能 架構,設計與實現$534$507 -
VIP 95折
納米級CMOS VLSI電路(可制造性設計)$474$450 -
VIP 95折
Manus應用與AI Agent設計指南:從入門到精通$359$341 -
87折
$360高薪Offer 簡歷、面試、談薪完全攻略 -
VIP 95折
軟件系統優化$534$507 -
VIP 95折
芯片的較量 (日美半導體風雲)$414$393 -
VIP 95折
Manus AI 智能體從入門到精通$294$279 -
87折
$981深度學習:基礎與概念 -
85折
$505GitHub Copilot 編程指南 -
VIP 95折
Cursor 與 Copilot 開發實戰 : 讓煩瑣編程智能化$539$512 -
85折
$551C#核心編程200例(視頻課程+全套源程序) -
VIP 95折
Verilog HDL計算機網絡典型電路算法設計與實現$354$336 -
VIP 95折
SAAS + AI 架構實戰:業務解析、架構設計、AI 應用$708$673
簡體館年度書展|現貨2書79折3書75折 詳見活動內容 »
-
85折
$806Linux x64 匯編語言編程 -
VIP 95折
MCP 極簡開發 : 輕鬆打造高效智能體$479$455 -
VIP 95折
硬件系統模糊測試:技術揭秘與案例剖析$419$398 -
VIP 95折
生成式視覺模型原理與實踐$288$274 -
87折
$459AI大模型:賦能通信產業 -
VIP 95折
科學預測——預見科學之美$408$388 -
VIP 95折
Processing創意編程入門:從編程原理到項目案例$299$284 -
87折
$360高薪Offer 簡歷、面試、談薪完全攻略 -
VIP 95折
軟件系統優化$534$507 -
85折
$505GitHub Copilot 編程指南 -
85折
$551C#核心編程200例(視頻課程+全套源程序) -
VIP 95折
SAAS + AI 架構實戰:業務解析、架構設計、AI 應用$708$673 -
VIP 95折
深入淺出 Docker, 2/e$419$398 -
85折
$658Unity 特效制作:Shader Graph 案例精講 -
79折
$275零基礎玩轉國產大模型DeepSeek -
VIP 95折
人工智能大模型:機器學習基礎$774$735 -
VIP 95折
RAG 極簡入門:原理與實踐$419$398 -
VIP 95折
大模型實戰 : 從零實現 RAG 與 Agent 系統$419$398 -
VIP 95折
算法趣學(第2版)$348$331 -
VIP 95折
大模型理論與實踐——打造行業智能助手$354$336 -
VIP 95折
大模型應用開發 RAG 實戰課$599$569 -
85折
$509生成式人工智能 (基於 PyTorch 實現) -
VIP 95折
機器人抓取力學$894$849 -
VIP 95折
集成電路版圖設計從入門到精通$474$450 -
VIP 95折
Java 學習筆記, 6/e$839$797
相關主題
商品描述
AIGC的應用領域日益廣泛,而在圖像生成領域,擴散模型則是AIGC技術的一個重要應用。本書以擴散模型理論知識為切入點,由淺入深地介紹了擴散模型的相關知識,並以大量生動有趣的實戰案例幫助讀者理解擴散模型的相關細節。全書共8章,詳細介紹了擴散模型的原理,以及擴散模型退化、採樣、DDIM反轉等重要概念與方法,此外還介紹了Stable Diffusion、ControlNet與音頻擴散模型等內容。最後,附錄提供由擴散模型生成的高質量圖像集以及Hugging Face社區的相關資源。
本書既適合所有對擴散模型感興趣的AI研究人員、相關科研人員以及在工作中有繪圖需求的從業人員閱讀,也可以作為電腦等相關專業學生的參考書。
作者簡介
李忻瑋,碩士畢業於美國常春藤盟校之一的哥倫比亞大學數據科學專業,現任聲網人工智能算法工程師;主要研究方向是生成式人工智能、電腦視覺、自然語言處理、提示工程等。
蘇步升,擴散模型算法工程師,AIGC創業者,Hugging Face中國社區本地化工作組成員。
徐浩然,畢業於中國海洋大學電子信息工程專業,現任聲網音頻算法工程師,從事揚聲器聲學設計、音頻增強算法、音頻質量評估算法等研究工作。
餘海銘,本科畢業於暨南大學,碩士畢業於加州大學爾灣分校;先後在中國科學院深圳先進技術研究院、愛奇藝、美團等單位工作;主要研究方向是圖像識別、圖像生成、多模態及自動駕駛等領域。
目錄大綱
第 1章 擴散模型簡介 1
1.1 擴散模型的原理 1
1.1.1 生成模型 1
1.1.2 擴散過程 2
1.2 擴散模型的發展 5
1.2.1 開始擴散:基礎擴散模型的提出與改進 6
1.2.2 加速生成:採樣器 6
1.2.3 刷新紀錄:基於顯式分類器引導的擴散模型 7
1.2.4 引爆網絡:基於CLIP的多模態圖像生成 8
1.2.5 再次“出圈”:大模型的“再學習”方法——DreamBooth、LoRA和ControlNet 8
1.2.6 開啟AI作畫時代:眾多商業公司提出成熟的圖像生成解決方案 10
1.3 擴散模型的應用 12
1.3.1 電腦視覺 12
1.3.2 時序數據預測 14
1.3.3 自然語言 15
1.3.4 基於文本的多模態 16
1.3.5 AI基礎科學 19
第 2章 Hugging Face簡介 21
2.1 Hugging Face核心功能介紹 21
2.2 Hugging Face開源庫 28
2.3 Gradio工具介紹 30
第3章 從零開始搭建擴散模型 33
3.1 環境準備 33
3.1.1 環境的創建與導入 33
3.1.2 數據集測試 34
3.2 擴散模型之退化過程 34
3.3 擴散模型之訓練 36
3.3.1 UNet網絡 36
3.3.2 開始訓練模型 38
3.4 擴散模型之採樣過程 41
3.4.1 採樣過程 41
3.4.2 與DDPM的區別 44
3.4.3 UNet2DModel模型 44
3.5 擴散模型之退化過程示例 57
3.5.1 退化過程 57
3.5.2 最終的訓練目標 59
3.6 拓展知識 60
3.6.1 時間步的調節 60
3.6.2 採樣(取樣)的關鍵問題 61
3.7 本章小結 61
第4章 Diffusers實戰 62
4.1 環境準備 62
4.1.1 安裝Diffusers庫 62
4.1.2 DreamBooth 64
4.1.3 Diffusers核心API 66
4.2 實戰:生成美麗的蝴蝶圖像 67
4.2.1 下載蝴蝶圖像集 67
4.2.2 擴散模型之調度器 69
4.2.3 定義擴散模型 70
4.2.4 創建擴散模型訓練循環 72
4.2.5 圖像的生成 75
4.3 拓展知識 77
4.3.1 將模型上傳到Hugging Face Hub 77
4.3.2 使用Accelerate庫擴大訓練模型的規模 79
4.4 本章小結 81
第5章 微調和引導 83
5.1 環境準備 86
5.2 加載一個預訓練過的管線 87
5.3 DDIM——更快的採樣過程 88
5.4 擴散模型之微調 91
5.4.1 實戰:微調 91
5.4.2 使用一個最小化示例程序來微調模型 96
5.4.3 保存和加載微調過的管線 97
5.5 擴散模型之引導 98
5.5.1 實戰:引導 100
5.5.2 CLIP引導 104
5.6 分享你的自定義採樣訓練 108
5.7 實戰:創建一個類別條件擴散模型 111
5.7.1 配置和數據準備 111
5.7.2 創建一個以類別為條件的UNet模型 112
5.7.3 訓練和採樣 114
5.8 本章小結 117
第6章 Stable Diffusion 118
6.1 基本概念 118
6.1.1 隱式擴散 118
6.1.2 以文本為生成條件 119
6.1.3 無分類器引導 121
6.1.4 其他類型的條件生成模型:Img2Img、Inpainting與Depth2Img模型 122
6.1.5 使用DreamBooth進行微調 123
6.2 環境準備 124
6.3 從文本生成圖像 125
6.4 Stable Diffusion Pipeline 128
6.4.1 可變分自編碼器 128
6.4.2 分詞器和文本編碼器 129
6.4.3 UNet 131
6.4.4 調度器 132
6.4.5 DIY採樣循環 134
6.5 其他管線介紹 136
6.5.1 Img2Img 136
6.5.2 Inpainting 138
6.5.3 Depth2Image 139
6.6 本章小結 140
第7章 DDIM反轉 141
7.1 實戰:反轉 141
7.1.1 配置 141
7.1.2 加載一個預訓練過的管線 142
7.1.3 DDIM採樣 143
7.1.4 反轉 147
7.2 組合封裝 153
7.3 ControlNet的結構與訓練過程 158
7.4 ControlNet示例 162
7.4.1 ControlNet與Canny Edge 162
7.4.2 ControlNet與M-LSD Lines 162
7.4.3 ControlNet與HED Boundary 163
7.4.4 ControlNet與塗鴉畫 164
7.4.5 ControlNet與人體關鍵點 164
7.4.6 ControlNet與語義分割 164
7.5 ControlNet實戰 165
7.6 本章小結 174
第8章 音頻擴散模型 175
8.1 實戰:音頻擴散模型 175
8.1.1 設置與導入 175
8.1.2 在預訓練的音頻擴散模型管線中進行採樣 176
8.1.3 從音頻到頻譜的轉換 177
8.1.4 微調管線 180
8.1.5 訓練循環 183
8.2 將模型上傳到Hugging Face Hub 186
8.3 本章小結 187
附錄A 精美圖像集展示 188
附錄B Hugging Face相關資源 202


