動手學大模型智能體

溫睦寧 林江浩 張偉楠 俞勇

  • 出版商: 人民郵電
  • 出版日期: 2026-01-01
  • 售價: $540
  • 語言: 簡體中文
  • ISBN: 7115686386
  • ISBN-13: 9787115686381
  • 相關分類: Large language model
  • 尚未上市,歡迎預購

相關主題

商品描述

本書系統講解了大模型智能體的基本內容及其代碼實現,是一本著眼於大模型智能體教學實踐的教材。

本書包含4個部分:第一部分為智能體基礎篇(第1~4章),介紹大模型與智能體以及生成式大語言模型的基礎知識、提示工程的技術和實用方法、智能體評估與調試方法;第二部分為智能體架構篇(第5~8章),講解主流的智能體架構設計、記憶管理與檢索增強、工具調用以及推理、規劃與樹搜索增強核心組件;第三部分為智能體微調篇(第9~11章),主要討論指令微調、低秩適應微調與模型量化以及強化微調等大模型智能體微調技術;第四部分為智能體前沿篇(第 12~15 章),涉及多模態智能體、多智能體系統、智能體安全以及智能體協議等前沿領域的最新進展。本書將大模型智能體的理論知識和實踐操作相結合,以大量示例和代碼帶領讀者系統掌握大模型智能體的研究內容和基本原理,為後續涉足大模型智能體的前沿應用打下基礎。

本書適合對大模型智能體感興趣的專業技術人員和研究人員閱讀,同時適合作為高等院校人工智能相關專業中大模型智能體課程的教材。

作者簡介

溫睦寧,上海交通大學人工智能學院助理研究員,2025年博士畢業於上海交通大學計算機科學與技術專業。研究方向聚焦於強化學習、大模型智能體以及多智能體系統等方面,擁有豐富的強化學習及智能體系統實踐經驗。累計發表國際學術論文20余篇,自2022年以來持續擔任NeurIPS、ICML、ICLR等國際學術會議審稿人。

林江浩,上海交通大學安泰經濟與管理學院助理教授,2025年博士畢業於上海交通大學計算機科學與技術專業。研究方向聚焦於生成式人工智能與數據科學,以及此類技術在推薦系統、運籌優化、智能商務等真實場景中的應用。累計發表國際學術論文40余篇,獲得兩項最佳論文獎,1篇論文入選ESI全球Top 1%高被引論文。

張偉楠,上海交通大學教授、博士生導師,ACM班機器學習與強化學習課程授課教師,上海創智學院全時導師。主要研究方向為強化學習、大模型智能體、具身智能。吳文俊人工智能優秀青年獎、達摩院青橙獎得主,主持國家自然科學基金優秀青年科學基金項目和科技部科技創新2030—“新一代人工智能”重大項目課題。

俞勇,享受國務院特殊津貼專家,首批“國家高層次人才特殊支持計劃”教學名師,上海交通大學特聘教授,上海交通大學ACM班創辦人,APEX數據與知識管理實驗室主任。曾獲得“全國模範教師”“全國師德標兵”“CCF傑出教育獎”“上海市五一勞動獎章”和“上海交通大學校長獎”等榮譽。2018年創辦伯禹人工智能學院,在上海交通大學ACM班人工智能專業課程體系的基礎上,對人工智能課程體系進行創新,致力於培養卓越的人工智能算法工程師和研究員。2025年創辦知春創新中心,探索中學和大學貫通式人才培養模式,打造AI時代創新人才培養“加速器”。

目錄大綱

第 一部分 智能體基礎篇


第 1章 初探大模型智能體 2

1.1 概述 2

1.2 智能體的基本概念 2

1.3 智能體的交互機制 4

1.3.1 智能體與人的交互 4

1.3.2 智能體與環境的交互 5

1.4 大模型與智能體的技術融合 6

1.5 實踐:構建第 一個智能體 6

1.6 小結 10

第 2章 生成式大語言模型基礎 11

2.1 概述 11

2.2 生成式大語言模型的技術架構 11

2.2.1 核心原理與發展歷程 11

2.2.2 主流模型對比和分析 12

2.3 生成式大語言模型的文本生成機制與特性 12

2.3.1 詞匯表與分詞器 13

2.3.2 自回歸生成原理 13

2.3.3 模型特性分析 14

2.4 生成式大語言模型的開源模型實踐應用 15

2.5 生成式大語言模型的生成參數 18

2.5.1 溫度參數 18

2.5.2 采樣策略 18

2.6 生成式大語言模型的對話系統實踐 20

2.7 小結 23

2.8 參考文獻 23

第3章 提示工程 24

3.1 概述 24

3.2 提示工程的定義 24

3.3 提示詞 25

3.3.1 提示詞的標準組成 28

3.3.2 提示詞的設計原則 29

3.4 角色扮演策略 32

3.5 提示工程技術 33

3.5.1 思維鏈 33

3.5.2 上下文學習 36

3.5.3 自我一致性 37

3.5.4 推理提示 37

3.5.5 反思提示 38

3.6 提示工程的實用方法 39

3.6.1 提示工程調優 39

3.6.2 常用的提示詞 44

3.6.3 提示工程開發實踐資源 45

3.7 小結 45

3.8 參考文獻 46

第4章 智能體評估與調試 47

4.1 概述 47

4.2 環境準備與模型部署 47

4.3 智能體異常場景 48

4.3.1 幻覺現象 48

4.3.2 工具調用異常 49

4.3.3 推理鏈錯誤 50

4.4 智能體與聊天機器人的差異 50

4.5 智能體的評估方法 51

4.5.1 人工測試與用戶反饋 52

4.5.2 自動化評估與基準數據集測試 53

4.5.3 大模型自動評測 58

4.6 智能體調試與問題定位 60

4.6.1 調試的基本流程和問題定位的常用方法 60

4.6.2 典型問題案例分析 60

4.7 小結 63

4.8 參考文獻 65


第二部分 智能體架構篇


第5章 智能體架構設計 68

5.1 概述 68

5.2 智能體架構的核心組件 68

5.2.1 記憶模塊 69

5.2.2 工具調用模塊 71

5.2.3 覆雜推理與規劃模塊 72

5.2.4 執行模塊 73

5.3 智能體工作流 73

5.4 常見的智能體架構模式 74

5.4.1 基於提示詞的混合決策架構 74

5.4.2 規劃—執行—反饋架構 75

5.4.3 自主循環架構 76

5.5 常用的智能體框架 77

5.5.1 LangChain:模塊化開發的標桿 77

5.5.2 LlamaIndex:非結構化數據處理專家 77

5.5.3 Haystack:企業級信息檢索框架 78

5.5.4 常用智能體框架的對比 78

5.6 實踐:最簡智能體架構實現 79

5.7 小結 87

5.8 參考文獻 88

第6章 記憶管理與檢索增強 89

6.1 概述 89

6.2 智能體的記憶管理 89

6.2.1 記憶管理的必要性 89

6.2.2 上下文窗口限制機制 90

6.2.3 實驗:智能體遺忘現象驗證 91

6.2.4 記憶管理機制的核心功能 93

6.3 短期記憶與長期記憶 93

6.3.1 短期記憶機制 93

6.3.2 實驗:滑動窗口短期記憶實現 94

6.3.3 長期記憶機制 96

6.3.4 實驗:簡易長期記憶實現 97

6.4 上下文管理 100

6.4.1 內容選擇 101

6.4.2 實驗:基於重要性的記憶選擇 101

6.4.3 摘要提取 102

6.4.4 實驗:對話摘要生成 103

6.5 檢索增強生成 105

6.5.1 構建知識庫 106

6.5.2 實驗:文檔向量化與索引構建 107

6.5.3 相似度檢索 108

6.5.4 基於FAISS的相似度檢索實踐 109

6.5.5 上下文增強 110

6.5.6 上下文增強的知識回答實踐 111

6.5.7 記憶更新機制 113

6.6 實用技巧與註意事項 114

6.6.1 嵌入模型與向量庫選型 114

6.6.2 檢索幹擾與提示工程 115

6.6.3 數據隱私與知識庫存儲策略 115

6.7 實踐:構建文檔問答智能體 116

6.8 小結 123

6.9 參考文獻 124

第7章 工具調用 125

7.1 概述 125

7.2 工具調用的核心流程 126

7.3 引入工具的必要性 126

7.3.1 大模型的局限性 127

7.3.2 能力補全的關鍵路徑 127

7.3.3 實驗驗證 128

7.4 常見的工具類型及應用場景 130

7.4.1 信息檢索類工具 130

7.4.2 計算與執行類工具 131

7.4.3 設備控制類工具 132

7.5 如何選擇並使用工具 133

7.5.1 工具接口設計 133

7.5.2 工具的調用和決策機制 135

7.5.3 工具的解析與執行 136

7.6 多工具的整合與調度 137

7.6.1 多工具的選擇策略 138

7.6.2 多工具的協作與順序執行 138

7.6.3 工具優先級與回退機制 139

7.6.4 多工具調用的策略 140

7.7 實踐:構建多功能智能體 140

7.8 小結 144

7.9 參考文獻 145

第8章 推理、規劃與樹搜索增強 146

8.1 概述 146

8.2 智能體推理與規劃面臨的挑戰 147

8.2.1 從失敗案例看解決推理任務的難點 147

8.2.2 思維鏈 151

8.2.3 思維鏈的局限性 151

8.3 智能體任務規劃的策略 152

8.3.1 規劃—執行範式 153

8.3.2 子任務分解 154

8.3.3 動態調整與反思 155

8.4 基於搜索算法的推理增強 156

8.4.1 思維樹 157

8.4.2 自我一致性 158

8.4.3 搜索算法結合 160

8.5 實踐:覆雜任務智能體 161

8.6 小結 175

8.7 參考文獻 176


第三部分 智能體微調篇


第9章 指令微調 178

9.1 概述 178

9.2 指令微調的原理 178

9.3 數據集準備 179

9.3.1 數據的生成方式 179

9.3.2 數據的格式 181

9.3.3 數據的質量 181

9.4 實踐:指令微調訓練流程 182

9.4.1 模型選擇和參數設置 182

9.4.2 訓練流程 183

9.4.3 效果評估 185

9.5 拓展與實踐建議 188

9.6 小結 188

9.7 參考文獻 189

第 10章 低秩適應微調與模型量化 190

10.1 概述 190

10.2 智能體微調的難點 191

10.3 LoRA微調的原理 191

10.4 LoRA微調實踐 194

10.4.1 加載模型和分詞器 194

10.4.2 加載數據集並預處理 196

10.4.3 LoRA微調實踐 198

10.4.4 全參數微調實踐 201

10.4.5 評估與分析 203

10.5 模型量化方法 207

10.5.1 8比特量化 208

10.5.2 4比特量化 211

10.5.3 靜態量化與動態量化 214

10.6 LoRA微調結合模型量化實踐 215

10.7 小結 223

10.8 參考文獻 225

第 11章 強化微調 226

11.1 概述 226

11.2 強化微調與傳統強化學習的對比 227

11.3 將文本生成建模為馬爾可夫決策過程 227

11.4 傳統強化學習基礎 228

11.4.1 價值優化與策略優化 228

11.4.2 Actor-Critic架構與PPO算法 229

11.5 強化微調經典方法與擴展 230

11.5.1 基於人類反饋的強化學習 230

11.5.2 群組相對策略優化 231

11.5.3 擴展技術:DAPO與VAPO 231

11.6 獎勵函數設計 232

11.6.1 常見的獎勵形式 232

11.6.2 過程獎勵與結果獎勵 232

11.6.3 獎勵設計的原則 233

11.7 基於VeRL框架的強化微調實踐 233

11.8 小結 239

11.9 參考文獻 240


第四部分 智能體前沿篇


第 12章 多模態智能體 242

12.1 概述 242

12.2 多模態輸入與理解 242

12.2.1 以文本為介質的多模態理解 243

12.2.2 原生多模態理解 244

12.3 多模態行為 246

12.4 實踐:GUI智能體——手機個人助手 247

12.5 小結 251

12.6 參考文獻 251

第 13章 多智能體系統 252

13.1 概述 252

13.2 多智能體的協作模式 253

13.3 典型架構與代表性工作 254

13.3.1 通信模式 255

13.3.2 系統架構 255

13.3.3 智能體的專業化策略 256

13.3.4 代表性項目 256

13.4 多智能體系統的應用 257

13.4.1 軟件開發自動化 257

13.4.2 內容創作與營銷 257

13.4.3 科研與學術論文寫作 258

13.5 實踐:構建基於大模型的多智能體系統 259

13.6 小結 262

13.7 參考文獻 263

第 14章 智能體安全 264

14.1 概述 264

14.2 智能體攻擊 265

14.2.1 直接提示詞註入 266

14.2.2 間接提示詞註入 268

14.2.3 認知黑客/任務劫持攻擊 269

14.3 智能體防禦 273

14.3.1 輸入/輸出過濾與凈化 273

14.3.2 工具使用確認與規劃限制 275

14.3.3 指令微調與加固 278

14.4 實踐:智能體紅藍對抗實驗 278

14.4.1 藍隊:構建智能體 279

14.4.2 紅隊:構造惡意文章 280

14.4.3 開始對抗過程 280

14.5 小結 281

14.6 參考文獻 282

第 15章 智能體協議 283

15.1 概述 283

15.2 智能體協議的分類 284

15.2.1 模型上下文協議 284

15.2.2 A2A協議 286

15.3 智能體協議的評估維度 287

15.3.1 高效性 288

15.3.2 性能擴展性 289

15.3.3 功能擴展性 289

15.4 實踐:基於MCP的智能體助手 290

15.5 小結 295

15.6 參考文獻 296