AIGC與智能體開發實戰:基於開源大模型+Serverless API

韓澤耀 孫國梁 張寅

  • 出版商: 人民郵電
  • 出版日期: 2025-11-01
  • 售價: $474
  • 語言: 簡體中文
  • 頁數: 244
  • ISBN: 7115685258
  • ISBN-13: 9787115685254
  • 相關分類: Large language model
  • 下單後立即進貨 (約4週~6週)

相關主題

商品描述

本書聚焦 AIGC 與智能體編程開發實戰,圍繞開源大模型與API調用展開。本書分為10章,從基礎理論到實際開發,全面講解基於開源大模型與Serverless API的智能應用開發。第1~3章介紹Serverless API、大模型應用架構和開發環境搭建;第 4~6 章以流行的開源模型(如DeepSeek、Stable Diffusion、Whisper 等)為基礎,逐步指導讀者掌握文本生成、圖像生成、語音處理的 API 開發技能;第 7、8 章深入多模態應用開發,如視頻生成與跨模態交互;第9、10 章講述 AI Agent、檢索增強生成(RAG)與微調技術的高階實踐,以及企業案例與未來趨勢。

本書以實戰為核心,案例豐富、通俗易懂,適合對 AIGC 與智能體編程開發感興趣,具備基礎編程知識的開發者、創業者以及技術愛好者快速上手並應用於實際工作或教學中

作者簡介

韓澤耀

浙江大學信息與電子工程學系微電子系統設計專業博士,《AIGC從入門到實戰》作者。曾在碩博連讀期間入選清華大學計算機系EDA課題組、中國科學院高速高性能FX型處理機課題組。曾就職於華為技術有限公司、上海交通大學、阿爾卡特朗訊、貝爾實驗室等。在無線通信系統、信號處理、算法設計與實現等領域擁有二十余年產業化研發經驗,同時具備人工智能教育方向的一線創業與產品化實踐經歷。目前致力於算法應用創新與AI編程開發,重點推進AI Infra x AIGC/Al Agent的工程化實踐與應用生態協同發展。

孫國梁

沐曦集成電路(上海)股份有限公司首席產品官、高級副總裁,清華大學車輛及運載學院機械工程博士。人工智能、芯片設計、電子系統及智算中心建設專家,擁有數十項個人發明專利與二十年系統及芯片開發經驗。具備大型算力芯片、GPU算力集群、人工智能項目及電子系統設計的深厚技術積累,以及豐富國內外市場運作經驗,曾主導多項國內外大型標桿性項目並取得圓滿成功。

張寅

浙江大學計算機科學與技術學院教授,博士生導師。主要從事數據智能、多智能體、AIGC技術與系統領域的研究。

目錄大綱

第 1章

快速入門 AIGC 與 Serverless API 開發 / 1

1.1 AIGC 演進與開源大模型生態 / 2

1.1.1 AIGC:智能時代的內容生產革命 / 2

1.1.2 AIGC 的發展歷程 / 3

1.1.3 AIGC/UGC/PGC 三類常見內容生成對比分析 / 3

1.1.4 主流 AIGC 技術類別與典型大模型簡介 / 4

1.1.5 部署開源大模型及輸出 API 對開發者的意義 / 7

1.2 Serverless API 和 OpenAI 兼容 API 的概念 / 10

1.2.1 Serverless 的定義與特征剖析 / 10

1.2.2 Serverless API 與傳統架構的對比分析 / 11

1.2.3 OpenAI 兼容 API 的定義與核心要素 / 13

1.2.4 OpenAI 兼容 API 的典型落地路徑 / 13

1.3 開源大模型與 Serverless API 架構融合的實際意義 / 14

1.3.1 Serverless API 架構解決開源大模型部署難題 / 15

1.3.2 開源生態與 Serverless API 的協同效應 / 15

1.3.3 國內外主流開源大模型 Token/API 服務平臺 / 16

1.4 基於 API 調用開發在大模型編程開發中的層級 / 17

1.4.1 大模型應用開發的層次架構 / 17

1.4.2 API 層級調用架構在應用開發場景中的對比圖示 / 19

1.4.3 API 調用開發的平臺和入口 / 20

1.5 本章小結 / 22

第 2 章

快速理解 AIGC 與 API 開發的基礎技術棧 / 23

2.1 快速入門 HTTP 協議中的 RESTful API / 24

2.1.1 RESTful API 和 CRUD(增刪改查)的對應關系 / 24

2.1.2 HTTP requests 庫和兼容 OpenAI SDK 調用方式對比 / 26

2.2 標準化的 API 調用流程以及簡單錯誤快速處理 / 28

2.2.1 API 調用的基礎規範與流程 / 28

2.2.2 API 調用簡單代碼示例 / 29

2.2.3 常見 API 錯誤與快速排錯技巧 / 29

2.3 常見 AIGC API 的調用參數講解 / 32

2.3.1 API 調用請求常用參數快速解析 / 32

2.3.2 常見 API 響應數據基礎字段介紹 / 35

2.4 AI 輔助開發工具與平臺快速認知 / 36

2.4.1 AI 輔助開發工具和平臺的作用 / 36

2.4.2 AI 輔助編碼類工具 / 37

2.4.3 AI 輔助平臺類工具 / 38

2.5 本章小結 / 38

第 3 章

初步設置和使用 API 之實戰入門 / 40

3.1 註冊與登錄以及如何獲得 API Key / 41

3.1.1 Gitee AI 平臺介紹 / 41

3.1.2 註冊 Gitee AI 賬號 / 42

3.1.3 創建 API 密鑰 / 43

3.1.4 使用 API 密鑰獲取 Token / 44

3.2 開始使用 Serverless API / 45

3.2.1 選擇模型和創建訪問令牌 / 46

3.2.2 測試模型 API / 48

3.2.3 查看 API 文檔和示例代碼 / 50

3.2.4 cURL 命令行工具的常見用法舉例 / 51

3.3 常見問題與解決方案 / 53

3.3.1 賬號和訪問問題 / 53

3.3.2 算力券和資源包問題 / 54

3.4 本章小結 / 54

第 4 章

基於 Serverless API 實現大模型編程初步 / 56

4.1 目標:調用模型接口,得到返回的交互結果 / 57

4.2 步驟:配置環境、安裝庫與獲取 API Key / 57

4.2.1 創建項目並安裝依賴 / 58

4.2.2 獲取 Gitee Serverless API 的 API Key / 58

4.2.3 API Key 的 3 種管理方式 / 58

4.3 過程:核心代碼(包括錯誤示例)詳解 / 59

4.4 成功:正確示例及代碼演示 / 60

4.5 改進:生成中文響應結果 / 65

4.6 精進:簡練中文回饋內容 / 66

4.7 本章小結 / 66

第 5 章

多種模態 API 原子能力初級實戰 / 68

5.1 開發環境配置與依賴庫安裝 / 69

5.1.1 Python 環境配置 / 70

5.1.2 安裝必要的依賴庫 / 71

5.1.3 配置 API 訪問憑證 / 73

5.2 實現 Instruct 與 Chat 的文本生成 Hello World / 75

5.2.1 Instruct 模型與 Chat 模型的區別 / 75

5.2.2 使用 Instruct 模型生成 Hello World / 76

5.2.3 使用 Chat 模型生成 Hello World / 79

5.2.4 Instruct 與 Chat 模型的選擇建議 / 81

5.3 實現 Stable Diffusion 的文生圖 Hello World / 82

5.3.1 Gitee AI 平臺的 Stable Diffusion 模型簡介 / 82

5.3.2 配置 Stable Diffusion API / 83

5.3.3 使用 Stable Diffusion 生成第 一張圖像 / 83

5.3.4 調整生成參數提升圖像質量 / 86

5.4 實現 Whisper 的語音識別 Hello World / 87

5.4.1 Gitee AI 平臺的 Whisper 模型簡介 / 87

5.4.2 配置語音識別 API / 87

5.4.3 使用 Gitee AI 平臺的 Whisper API 進行語音識別 / 87

5.4.4 使用本地音頻文件進行語音識別 / 90

5.4.5 實時語音識別 / 92

5.5 本章小結 / 95

第 6 章

多種模態 API 調用及編排進階實戰 / 96

6.1 實現 DeepSeek+Stable Diffusion 的圖像生成優化 / 97

6.1.1 DeepSeek 模型優化機制 / 97

6.1.2 API 編排實現協同 AIGC 圖像生成 / 99

6.1.3 參數優化與問題排查 / 103

6.2 實現 Wan2.1-T2V 的文生視頻 / 104

6.2.1 視頻生成模型簡介 / 104

6.2.2 使用 Wan2.1-T2V 生成視頻 / 105

6.2.3 視頻生成參數調優 / 111

6.3 實現 Hunyuan3D-2 的圖生 3D / 111

6.3.1 Hunyuan 3D 生成模型簡介 / 111

6.3.2 使用 Hunyuan3D-2 生成 3D 模型 / 111

6.3.3 使用 Open3D 查看和處理 3D 模型 / 116

6.4 API 調用常見錯誤與調試進階 / 118

6.4.1 常見錯誤類型 / 119

6.4.2 API 調用調試技巧 / 119

6.4.3 實現請求重試和錯誤處理 / 120

6.4.4 API 調用性能優化 / 123

6.5 本章小結 / 124

第 7 章

輔助生成代碼、打造多種形態及踐行 Vibe Coding / 126

7.1 主流開源代碼輔助生成大模型 / 127

7.1.1 回顧開源大語言模型的發展與意義 / 127

7.1.2 DeepSeek-V3/R1 模型回顧 / 128

7.1.3 CodeGeeX 模型詳解 / 128

7.1.4 新一代開源 Coder 與數學 / 證明模型的發展 / 129

7.1.5 模型性能對比與選擇建議 / 130

7.2 用文本 / 代碼生成大模型 API 構建不同生成形態的工具 / 132

7.2.1 文本 / 代碼生成工具的基本架構 / 132

7.2.2 智能對話工具的實現(命令行) / 132

7.2.3 文本摘要工具的實現(Web 網頁端) / 134

7.2.4 文本續寫工具的實現(API) / 136

7.3 AI 代碼輔助工具實戰 / 140

7.3.1 AI 代碼輔助工具概述 / 140

7.3.2 GitHub Copilot 使用實戰 / 141

7.3.3 Cline AI 代碼助手使用實戰 / 143

7.3.4 Trae AI 代碼助手使用實戰 / 144

7.3.5 Cursor 編譯器使用實戰 / 145

7.3.6 通義靈碼代碼助手使用實戰 / 146

7.4 AI Coding 中 VSCode+Cline+Gitee.AI 的配置與實踐 / 148

7.4.1 VSCode 中 AI 編程助手的選擇 / 148

7.4.2 VSCode 中配置 Cline 第三方 API 的詳細步驟 / 148

7.4.3 實用 VSCode 擴展組合推薦 / 150

7.4.4 常見問題與解決方案 / 150

7.5 如何提升 AI 代碼生成的質量 / 151

7.5.1 面向代碼生成的提示詞工程技巧 / 151

7.5.2 行業案例分析 / 153

7.6 本章小結 / 154

第 8 章

圖像生成與視覺識別 API 開發進階實戰 / 156

8.1 圖像生成、圖像識別、圖像理解、圖像處理技術簡介 / 157

8.1.1 圖像生成技術簡介 / 157

8.1.2 圖像識別技術簡介 / 158

8.1.3 圖像描述 / 理解和視覺問答技術簡介 / 159

8.1.4 圖像增強及圖像超分技術簡介 / 159

8.2 基於 Gitee 平臺的 Serverless-API 實現圖片生成及風格遷移 / 160

8.2.1 Serverless 架構在圖像處理中的應用 / 161

8.2.2 基於 Gitee 平臺 Stable Diffusion 的圖像生成 API 實現 / 161

8.2.3 Kolors 中文圖像生成 API 實現 / 166

8.2.4 基於 Kolors 的圖像風格遷移 API 實現 / 169

8.3 通過圖像識別和圖像理解技術構建應用 / 173

8.3.1 InternVL 圖像理解 / 173

8.3.2 3 個 AI 1.0 時代的圖像識別開源項目 / 174

8.4 Real-ESRGAN 圖像超分模型與傳統 PIL 構建應用 / 177

8.4.1 兩者在實現和解決問題上的差別和關系 / 177

8.4.2 用 Real-ESRGAN 大模型實現超分的應用 / 179

8.4.3 傳統基於 PIL 實現的圖像處理開源項目 / 180

8.5 本章小結 / 184

第 9 章

音頻處理與視頻生成 API 進階開發實戰 / 186

9.1 音頻識別模型和語音合成模型解析 / 187

9.1.1 音頻識別技術的發展與原理 / 187

9.1.2 Whisper 語音識別模型解析 / 187

9.1.3 Fish Speech 語音合成模型解析 / 188

9.1.4 ChatTTS 語音合成模型解析 / 188

9.1.5 語音識別、語音合成模型對比與選擇建議 / 189

9.2 Serverless API 實現音頻識別與語音合成 / 190

9.2.1 Serverless 架構在音頻處理中的應用 / 190

9.2.2 基於 Whisper 的音頻識別 API 實現 / 191

9.2.3 基於 ChatTTS、Fish Speech 的語音合成 API 實現 / 196

9.3 視頻生成模型解析與 API 實現 / 200

9.3.1 視頻生成技術的發展與原理 / 200

9.3.2 Wan2.1-T2V 模型解釋 / 200

9.3.3 基於 Wan2.1-T2V 的視頻生成 API 實現 / 200

9.4 音視頻 API 的實際應用案例 / 204

9.4.1 基於錄音 +Whisper+GUI 實現實時會議轉錄系統 / 204

9.4.2 基於 Whisper+ChatTTS/Fish Speech 實現多語言配音系統 / 209

9.4.3 基於 Wan2.1-T2V 實現節日祝福語視頻生成器 / 213

9.5 本章小結 / 217

第 10 章

跨模態開發與應用集成實戰 / 219

10.1 多模態大模型概述 / 220

10.1.1 多模態大模型定義和特點 / 220

10.1.2 多模態大模型的主要架構 / 220

10.1.3 主流多模態大模型對比 / 222

10.2 跨模態數據處理與融合技術 / 223

10.2.1 跨模態數據處理的關鍵技術 / 223

10.2.2 Python 實現跨模態數據處理與融合 / 225

10.3 基於跨模態大模型的應用開發 / 228

10.3.1 跨模態應用場景分析 / 228

10.3.2 多模態 RAG 系統 / 229

10.3.3 應用開發實戰案例 / 230

10.4 多模態大模型應用的挑戰與展望 / 235

10.4.1 當前面臨的挑戰 / 236

10.4.2 未來發展趨勢 / 236

10.4.3 實踐建議 / 237

10.5 本章小結 / 237

附錄 A

“興智杯”全國人工智能創新應用大賽參賽報名及算力獲取 / 238

A1 獲取和兌換“興智杯”大賽算力券 / 239

A1.1 “興智杯”大賽簡介 / 239

A1.2 算力券的獲取方式 / 239

A1.3 算力券的兌換流程 / 239

A2 “興智杯”大賽使用算力券購買 Serverless API / 241

A2.1 沐曦模型資源包介紹 / 241

A2.2 購買沐曦模型資源包的詳細步驟 / 242

A2.3 查看購買記錄和資源使用情況 / 244