AI 圖像生成核心技術與實戰
南柯
- 出版商: 人民郵電
- 出版日期: 2024-10-01
- 定價: $419
- 售價: 8.5 折 $356
- 語言: 簡體中文
- 頁數: 158
- ISBN: 711565039X
- ISBN-13: 9787115650399
-
相關分類:
GAN 生成對抗網絡
-
相關翻譯:
AI 獨家解密 - DALL·E、Midjourney、Stable Diffusion Python 打開圖片生成原理潘朵拉盒子 (繁中版)
立即出貨
買這商品的人也買了...
-
量子電腦與量子計算|IBM Q Experience 實作$580$458 -
量子計算與編程入門$1,188$1,129 -
$352電腦視覺圖像與視頻數據標註 -
AutoCAD 2022 電腦繪圖與絕佳設計表現 -- 室內設計基礎 (附660分鐘影音教學/範例檔)$580$458 -
輕鬆學量子程式設計|從量子位元到量子演算法$520$411 -
$599AutoCAD Electrical 2022 中文版電氣設計自學速成 -
$509AutoCAD 2024中文版土木工程設計從入門到精通 -
AutoCAD 2024中文版室內裝潢設計從入門到精通$599$569 -
$509AutoCAD 2024 中文版電氣設計從入門到精通 -
$401AI 程式設計班 : Python × ChatGPT 網絡爬蟲從入門到精通 -
$331LangChain 編程:從入門到實踐 -
圖像生成式 AI 的生存指南 -- 以 Stable Diffusion 為例$780$616 -
LangChain 開發手冊 -- OpenAI × LCEL 表達式 × Agent 自動化流程 × RAG 擴展模型知識 × 圖形資料庫 × LangSmith 除錯工具$680$537 -
量子機器學習 — 基於 Python 的理論和實現$414$393 -
AI 生成影音創作:超好用的文案、圖像、影片、聲音實戰技 (附影音教學)$480$379 -
LLM 大型語言模型的絕世祕笈:27路獨步劍法,帶你闖蕩生成式 AI 的五湖四海 (iThome鐵人賽系列書)$650$507 -
AutoCAD 2024 電腦繪圖與絕佳設計表現 -- 室內設計基礎 (附600分鐘影音教學/範例檔)$580$435 -
$407機器視覺偵測與辨識技術及應用 基於深度學習 -
自己開發 ChatGPT - LLM 從頭開始動手實作$720$569 -
LLM 的大開源時代 - Llama 模型精讀實戰$650$514 -
$559大語言模型開發:用開源模型開發本地系統 -
全面掌握生成式 AI 與 LLM 開發實務:NLP × PyTorch × GPT 輕鬆打造專屬的大型語言模型(iThome鐵人賽系列書)$620$465 -
$446巧用 ChatGPT 進行資料分析與挖掘 -
AI 音效、語音與音樂:設計創意影片新時代$690$545 -
多 Agent 智慧體 - LangChain 大型 ReAct 系統開發$880$695
中文年末書展|繁簡參展書2書75折 詳見活動內容 »
-
75折
為你寫的 Vue Components:從原子到系統,一步步用設計思維打造面面俱到的元件實戰力 (iThome 鐵人賽系列書)$780$585 -
75折
BDD in Action, 2/e (中文版)$960$720 -
75折
看不見的戰場:社群、AI 與企業資安危機$750$563 -
79折
AI 精準提問 × 高效應用:DeepSeek、ChatGPT、Claude、Gemini、Copilot 一本搞定$390$308 -
7折
超實用!Word.Excel.PowerPoint 辦公室 Office 365 省時高手必備 50招, 4/e (暢銷回饋版)$420$294 -
75折
裂縫碎光:資安數位生存戰$550$412 -
85折
日本當代最強插畫 2025 : 150位當代最強畫師豪華作品集$640$544 -
79折
Google BI 解決方案:Looker Studio × AI 數據驅動行銷實作,完美整合 Google Analytics 4、Google Ads、ChatGPT、Gemini$630$498 -
79折
超有料 Plus!職場第一實用的 AI 工作術 - 用對 AI 工具、自動化 Agent, 讓生產力全面進化!$599$473 -
75折
從零開始學 Visual C# 2022 程式設計, 4/e (暢銷回饋版)$690$518 -
75折
Windows 11 制霸攻略:圖解 AI 與 Copilot 應用,輕鬆搞懂新手必學的 Windows 技巧$640$480 -
75折
精準駕馭 Word!論文寫作絕非難事 (好評回饋版)$480$360 -
Sam Yang 的插畫藝術:用 Procreate / PS 畫出最強男友視角 x 女孩美好日常$699$629 -
79折
AI 加持!Google Sheets 超級工作流$599$473 -
78折
想要 SSR? 快使用 Nuxt 吧!:Nuxt 讓 Vue.js 更好處理 SEO 搜尋引擎最佳化(iThome鐵人賽系列書)$780$608 -
78折
超實用!業務.總管.人資的辦公室 WORD 365 省時高手必備 50招 (第二版)$500$390 -
7折
Node-RED + YOLO + ESP32-CAM:AIoT 智慧物聯網與邊緣 AI 專題實戰$680$476 -
79折
「生成式⇄AI」:52 個零程式互動體驗,打造新世代人工智慧素養$599$473 -
7折
Windows APT Warfare:惡意程式前線戰術指南, 3/e$720$504 -
75折
我輩程式人:回顧從 Ada 到 AI 這條程式路,程式人如何改變世界的歷史與未來展望 (We, Programmers: A Chronicle of Coders from Ada to AI)$850$637 -
75折
不用自己寫!用 GitHub Copilot 搞定 LLM 應用開發$600$450 -
79折
Tensorflow 接班王者:Google JAX 深度學習又快又強大 (好評回饋版)$780$616 -
79折
GPT4 會你也會 - 共融機器人的多模態互動式情感分析 (好評回饋版)$700$553 -
79折
技術士技能檢定 電腦軟體應用丙級術科解題教本|Office 2021$460$363 -
75折
Notion 與 Notion AI 全能實戰手冊:生活、學習與職場的智慧策略 (暢銷回饋版)$560$420
相關主題
商品描述
本書以AI圖像生成為主線,串聯講解了Stable Diffusion、DALL·E、Imagen、Midjourney等模型的技術方案,並帶著讀者訓練一個自己專屬的AI圖像生成模型。
本書共6章。第1章先介紹身邊的AIGC產品,再講解AI圖像生成相關的深度學習基礎知識,包括神經網絡和多模態模型的基礎知識。第2章講解AI圖像生成技術,從VAE到GAN到基於流的模型再到擴散模型的演化,並詳細介紹擴散模型的算法原理和組成模塊。第3章講解Stable Diffusion模型的核心技術。第4章講解DALL·E 2、Imagen、DeepFloyd和Stable Diffusion圖像變體模型的核心技術。第5章講解Midjourney、SDXL和DALL·E 3的核心技術。第6章是項目實戰,使用LoRA技術對Stable Diffusion模型進行微調,得到特定風格的AI圖像生成模型。
作者簡介
南柯,某頭部因特網公司 AIGC 團隊技術負責人,高級算法專家,極客時間“AI 繪畫核心技術與實戰”專欄作者,擁有十多年電腦視覺領域從業經驗,帶領團隊推動多模態生成,尤其是 AI 圖像生成與編輯、多模態大語言模型、數字人等熱點方向的技術建設。在 ICCV 和AAAI 年會等 AI 領域頂級會議上發表過多篇論文,擁有 100 多項專利。
目錄大綱
第 1章 AIGC基礎 1
1.1 身邊的AIGC 1
1.1.1 圖像生成和編輯類工具 1
1.1.2 文字提效類工具 2
1.1.3 音頻創作類工具 4
1.2 神經網絡 4
1.2.1 人工神經元 5
1.2.2 激活函數 6
1.2.3 人工神經網絡 7
1.2.4 損失函數 9
1.2.5 優化器 9
1.2.6 捲積神經網絡 10
1.3 多模態模型 13
1.3.1 認識模態 14
1.3.2 典型多模態模型 15
1.3.3 參數量 16
1.3.4 計算量 17
1.4 小結 17
第 2章 圖像生成模型:GAN和擴散模型 19
2.1 圖像生成模型的技術演化 19
2.1.1 第 一代圖像生成模型:VAE 20
2.1.2 第二代圖像生成模型:GAN 20
2.1.3 第三代圖像生成模型:基於流的模型 21
2.1.4 第四代圖像生成模型:擴散模型 21
2.1.5 第五代圖像生成模型:自回歸模型 22
2.2 “舊畫師”GAN 22
2.2.1 生成對抗原理 22
2.2.2 生成能力的進化 24
2.2.3 GAN時代的“圖生圖” 28
2.2.4 GAN的技術應用 30
2.3 “新畫師”擴散模型 31
2.3.1 加噪過程:從原始圖像到噪聲圖 32
2.3.2 去噪過程:從噪聲圖到清晰圖像 33
2.3.3 訓練過程和推理過程 35
2.3.4 擴散模型與GAN 36
2.4 擴散模型的U-Net模型 37
2.4.1 巧妙的U形結構 37
2.4.2 損失函數設計 41
2.4.3 應用於擴散模型 43
2.5 擴散模型的採樣器 43
2.5.1 採樣器背後的原理 44
2.5.2 如何選擇採樣器 45
2.6 訓練一個擴散模型 46
2.6.1 初探擴散模型:輕松入門 46
2.6.2 深入擴散模型:定製藝術 50
2.7 小結 52
第3章 Stable Diffusion的核心技術 53
3.1 圖像的“壓縮器”VAE 53
3.1.1 從AE到VAE 54
3.1.2 圖像插值生成 58
3.1.3 訓練“餐廳評論機器人” 60
3.1.4 VAE和擴散模型 61
3.2 讓模型“聽話”的CLIP 62
3.2.1 連接兩種模態 62
3.2.2 跨模態檢索 64
3.2.3 其他CLIP模型 67
3.2.4 CLIP和擴散模型 68
3.3 交叉註意力機制 69
3.3.1 序列、詞符和詞嵌入 69
3.3.2 自註意力與交叉註意力 71
3.3.3 多頭註意力 72
3.4 Stable Diffusion是如何工作的 77
3.4.1 Stable Diffusion的演化之路 77
3.4.2 潛在擴散模型 78
3.4.3 文本描述引導原理 80
3.4.4 U-Net模型實現細節 82
3.4.5 反向描述詞與CLIP Skip 86
3.4.6 “圖生圖”實現原理 87
3.5 小結 90
第4章 DALL·E 2、Imagen、DeepFloyd和Stable Diffusion圖像變體的
核心技術 91
4.1 裏程碑DALL·E 2 91
4.1.1 DALL·E 2的基本功能概覽 91
4.1.2 DALL·E 2背後的原理 94
4.1.3 unCLIP:圖像變體的魔法 97
4.1.4 DALL·E 2的算法局限性 97
4.2 Imagen和DeepFloyd 98
4.2.1 Imagen vs DALL·E 2 98
4.2.2 Imagen的算法原理 99
4.2.3 文本編碼器:T5 vs CLIP 100
4.2.4 動態閾值策略 103
4.2.5 開源模型DeepFloyd 104
4.2.6 升級版Imagen 2 107
4.3 Stable Diffusion圖像變體 107
4.3.1 “圖生圖”vs圖像變體 107
4.3.2 使用Stable Diffusion圖像變體 108
4.3.3 探秘Stable Diffusion圖像變體模型背後的算法原理 110
4.4 小結 112
第5章 Midjourney、SDXL和DALL·E 3的核心技術 113
5.1 推測Midjourney的技術方案 113
5.1.1 Midjourney的基本用法 113
5.1.2 各版本演化之路 114
5.1.3 技術方案推測 117
5.2 SDXL的技術方案與使用 120
5.2.1 驚艷的繪圖能力 120
5.2.2 使用級聯模型提升效果 122
5.2.3 更新基礎模塊 123
5.2.4 使用SDXL模型 124
5.3 更“聽話”的DALL·E 3 126
5.3.1 體驗DALL·E 3的功能 126
5.3.2 數據集重新描述 127
5.3.3 生成數據有效性 128
5.3.4 數據混合策略 129
5.3.5 基礎模塊升級 131
5.3.6 擴散模型解碼器 133
5.3.7 算法局限性 133
5.4 小結 134
第6章 訓練自己的Stable Diffusion 135
6.1 低成本訓練神器LoRA 135
6.1.1 LoRA的基本原理 135
6.1.2 LoRA的代碼實現 136
6.1.3 用於圖像生成任務 138
6.2 Stable Diffusion WebUI體驗圖像生成 139
6.2.1 本地AI圖像生成模型 140
6.2.2 開源社區中的模型 142
6.2.3 體驗AI圖像生成功能 143
6.2.4 將多個模型進行融合 144
6.2.5 靈活的LoRA模型 146
6.3 Stable Diffusion代碼實戰 150
6.3.1 訓練數據準備 151
6.3.2 基礎模型的選擇與使用 154
6.3.3 一次完整的訓練過程 155
6.4 小結 157


