構建私有化大模型應用系統:部署、推理與知識庫搭建
溫智凱
- 出版商: 清華大學
- 出版日期: 2025-09-01
- 售價: $594
- 語言: 簡體中文
- ISBN: 7302700877
- ISBN-13: 9787302700876
-
相關分類:
Large language model
下單後立即進貨 (約4週~6週)
商品描述
作者簡介
目錄大綱
目 錄
第 1 部分 大模型私有化部署基礎與技術生態
第 1 章 大模型私有化部署概述 2
1.1 大模型私有化部署核心流程簡介 2
1.1.1 大模型訓練、推理及部署基本概念詳解 2
1.1.2 模型即服務 5
1.1.3 雲服務的局限性 8
1.1.4 面向企業的私有化部署應用案例 8
1.1.5 為何需要大模型私有化部署 10
1.2 大模型技術生態 11
1.2.1 LLaMA、Qwen、Baichuan等主流開源模型 11
1.2.2 模型量化框架:HuggingFace Transformers、GGUF、GGML、ONNX 15
1.2.3 推理引擎:vLLM、TGI、llama.cpp、FasterTransformer 16
1.2.4 工程構建框架:LangChain、LlamaIndex、Flowise 19
1.2.5 模型互聯協議:MCP、Agent-to-Agent 20
1.3 私有化知識庫搭建 25
1.3.1 檢索增強生成(RAG) 25
1.3.2 知識庫系統架構分層設計:Embedding、索引、查詢、融合 26
1.3.3 數據流與提示詞模板構造方式 29
1.3.4 用戶接口、緩存機制與資源調用 30
1.4 技術棧選型與整合 30
1.4.1 開發生態:FastAPI、uvicorn、gradio 30
1.4.2 向量數據庫:FAISS、Milvus、Weaviate 32
1.4.3 前端開發工具鏈 33
1.4.4 雲邊協同部署 35
1.5 本章小結 37
第 2 章 模型格式與推理引擎詳解 38
2.1 模型格式結構與存儲優化 38
2.1.1 Transformers原始格式結構 38
2.1.2 HuggingFace safetensors與Tokenizer機制 41
2.1.3 GGUF模型結構與KV緩存 43
2.1.4 模型量化機制與存儲空間壓縮 47
2.2 主流推理引擎深度解析 49
2.2.1 vLLM:高並發KV緩存、預填充加速 50
2.2.2 TGI:多模型熱加載與隊列式服務 52
2.2.3 llama.cpp:基於CPU側部署的高效執行引擎 54
2.2.4 DeepSpeed-Inference與TensorRT推理優化實戰 55
2.3 多GPU部署與分布式推理策略 57
2.3.1 張量並行與模型切片技術 58
2.3.2 Flash-Attention 59
2.3.3 Pipeline並行與批量推理調度 61
2.3.4 Triton部署模型組服務 63
2.4 本地推理環境配置與性能調優 64
2.4.1 CUDA與cuDNN 64
2.4.2 Docker容器封裝與環境隔離 65
2.4.3 動態Batch Size與Token限額控制 67
2.4.4 日誌監控、超時回收與異常處理機制 69
2.5 本章小結 71
第 3 章 向量模型與文本嵌入技術 72
3.1 向量表示的基本原理與應用場景 72
3.1.1 語義搜索中的向量化建模 72
3.1.2 詞向量與句向量對比 73
3.1.3 向量維度與精度權衡 75
3.1.4 常見評估指標:余弦相似度、L2距離與recall@k 76
3.2 主流Embedding模型分析 77
3.2.1 中文向量模型:bge-large-zh、text2vec-base 78
3.2.2 OpenAI Embedding與API調用 79
3.2.3 multilingual-e5模型跨語種能力 81
3.2.4 SimCSE、Cohere等多場景向量模型 83
3.3 向量生成服務的部署與封裝 85
3.3.1 本地化部署embedding模型服務 85
3.3.2 使用FastAPI封裝Embedding API 87
3.3.3 向量緩存策略 89
3.4 嵌入質量優化與向量歸一化 91
3.4.1 嵌入輸出分布的規範化處理 92
3.4.2 Mean Pooling與CLS Token提取 93
3.4.3 使用向量均值中心化增強相似性表現 95
3.4.4 向量漂移與訓練域偏移現象 97
3.5 本章小結 98
第 4 章 向量數據庫構建與檢索系統 99
4.1 向量數據庫選型對比與性能評估 99
4.1.1 FAISS:輕量化CPU、單機方案 99
4.1.2 Milvus:企業級向量檢索平臺 102
4.1.3 Weaviate、Chroma等新興方案 104
4.1.4 Benchmark指標:插入吞吐率、檢索查準率、召回速度 106
4.2 FAISS索引構建技術詳解 108
4.2.1 IndexFlatL2、IVF、HNSW的原理與適用場景 108
4.2.2 建立分層索引與量化索引機制 109
4.2.3 批量向量入庫與索引持久化處理 111
4.2.4 搜索參數調優:nprobe、topk、efSearch 112
4.3 數據切片與文檔分塊策略 114
4.3.1 滑動窗口切分與句子分割 114
4.3.2 段落間語義保持與斷點延續 116
4.3.3 基於Token長度的自動分塊算法 118
4.3.4 文檔元信息綁定與索引註解 121
4.4 檢索接口構建 123
4.4.1 使用FastAPI提供RAG檢索服務 123
4.4.2 支持多語言查詢向量化與轉換 127
4.5 本章小結 131
第 2 部分 大模型應用系統核心與性能優化
第 5 章 檢索增強生成系統實現 134
5.1 RAG系統的核心機制 134
5.1.1 用戶查詢向量化與預處理實現 134
5.1.2 Top-K語義檢索與相關片段融合 137
5.1.3 提示詞構建中的上下文拼接策略 140
5.1.4 輸出後處理與精簡回答邏輯 142
5.2 提示詞模板的設計與註入方式 144
5.2.1 靜態模板與動態填充模式 144
5.2.2 插入位置對生成效果的影響(前置、後置、嵌套) 145
5.2.3 基於角色設定的提示詞構造技巧 147
5.2.4 格式化指令與高置信度答案控制 147
5.3 多輪對話中的上下文管理 149
5.3.1 查詢與歷史會話的窗口控制策略 150
5.3.2 Conversation Memory的持久化方案 151
5.3.3 提示詞Token的溢出處理與摘要壓縮 154
5.3.4 多用戶對話狀態隔離機制設計 157
5.4 RAG系統的評估與優化路徑 160
5.4.1 問答準確率、上下文覆蓋率、響應延遲 160
5.4.2 檢索質量對生成質量的非線性影響 162
5.4.3 引入Re-Ranking模型提升召回效果 164
5.4.4 加入外部知識來源與候選緩存增強 165
5.5 本章小結 168
第 6 章 本地化API服務與系統接口封裝 169
6.1 基於FastAPI的推理服務構建 169
6.1.1 路由設計與請求體結構約定 169
6.1.2 多模型切換支持與動態加載機制 171
6.1.3 異步任務與並發調度實現 174
6.2 多模塊服務組合與調用鏈路管理 175
6.2.1 查詢轉Embedding服務封裝 176
6.2.2 向量檢索與文檔召回接口 177
6.3 服務性能優化與壓測工具應用 179
6.3.1 使用locust或wrk進行QPS壓測 179
6.3.2 多線程/多進程服務架構優化 181
6.4 接口安全機制與權限控制 183
6.4.1 接口Token驗證機制 183
6.4.2 基於IP地址/賬號的訪問權限控制 185
6.4.3 API限流與惡意請求攔截方案 187
6.5 本章小結 189
第 7 章 知識庫構建與多源異構數據處理 190
7.1 文檔采集與清洗的標準流程 190
7.1.1 支持格式:PDF、Word、Excel、HTML 190
7.1.2 接入OCR技術 192
7.1.3 正文提取與噪聲過濾機制 195
7.1.4 文件批處理流水線的調度設計 197
7.2 分塊策略與語義斷句方法 200
7.2.1 Sliding Window與自適應分句模型 200
7.2.2 多語種文檔分塊兼容性設計 202
7.2.3 固定Token分塊與語義切分對比 203
7.2.4 分塊編號與上下文定位註解設計 206
7.3 本章小結 208
第 3 部分 大模型平臺落地與業務場景集成
第 8 章 交互系統集成 210
8.1 多平臺交互系統構建 210
8.1.1 基於Gradio構建輕量交互系統 210
8.1.2 使用Streamlit構建文檔問答工具 213
8.1.3 使用Next.js打造企業級Web交互系統 215
8.1.4 支持接入HTML5移動頁面與微信小程序 217
8.2 Chat交互系統核心組件開發實戰 221
8.2.1 消息流管理與歷史對話加載 221
8.2.2 問答標註與知識引用定位功能 224
8.2.3 問題反饋與點贊機制的實現 227
8.3 本章小結 230
第 9 章 私有化部署實戰 231
9.1 私有化部署環境構建與運維基礎 231
9.1.1 GPU服務器與網絡架構部署方案 231
9.1.2 離線環境的依賴緩存與封包策略 232
9.1.3 基於Docker Compose的模塊化部署 233
9.2 數據保護與脫敏機制設計 237
9.2.1 輸入/輸出內容中的PII識別模型 237
9.2.2 文檔內容脫敏與可逆替換策略 240
9.2.3 加密傳輸與靜態加密文件系統集成 242
9.3 模型與知識隔離機制 244
9.3.1 多租戶數據訪問隔離 244
9.3.2 不同領域知識子庫隔離檢索 247
9.3.3 臨時會話緩存數據自動銷毀機制 249
9.4 攻擊面識別與防護策略 252
9.4.1 提示詞註入攻擊檢測機制 252
9.4.2 對抗式輸入與提示詞汙染防禦 255
9.5 本章小結 257
第 10 章 知識庫構建實戰與系統集成 258
10.1 私有化法律問答系統構建案例 258
10.1.1 法律條文PDF采集與結構化抽取 258
10.1.2 法規條款向量化策略設計 262
10.1.3 多輪問答與法規引用機制實現 265
10.1.4 本地化部署與知識庫搭建完整流程 267
10.2 企業級知識助手集成方案 274
10.2.1 接入OA系統與企業目錄服務 274
10.2.2 工作流嵌入式問答組件封裝 279
10.2.3 文檔上傳、版本疊代及雲服務平臺接入 281
10.3 本章小結 284