精益大模型:成本優化與工程實踐
[美] 施雷亞斯·蘇布拉曼尼安(Shreyas Subramanian)著 陳堰平、楊薈、袁銘 譯
- 出版商: 清華大學
- 出版日期: 2026-02-01
- 售價: $408
- 語言: 簡體中文
- ISBN: 7302707227
- ISBN-13: 9787302707226
-
相關分類:
Large language model
- 此書翻譯自: Large Language Model-Based Solutions: How to Deliver Value with Cost-Effective Generative AI Applications
下單後立即進貨 (約4週~6週)
相關主題
商品描述
作者簡介
目錄大綱
目 錄
第1章 引言 1
1.1 GenAI應用和大語言模型概述 1
1.1.1 大語言模型的崛起 1
1.1.2 神經網絡、Transformer及其未來發展 2
1.1.3 GenAI與LLM的區別 6
1.1.4 GenAI應用的三層架構 8
1.2 將GenAI應用投入生產的途徑 11
1.3 成本優化的重要性 15
1.3.1 模型推理組件的成本評估 16
1.3.2 向量數據庫組件的成本評估 24
1.3.3 大語言模型組件的成本評估 31
1.4 本章小結 35
第2章 微調技術與成本優化 37
2.1 微調和可定制性 37
2.2 參數高效微調方法 41
2.2.1 適配器的內在機制 42
2.2.2 低秩適配 54
2.3 PEFT方法的成本和性能影響 57
2.4 本章小結 60
第3章 推理成本的優化技巧 61
3.1 推理技術簡介 61
3.2 提示工程 62
3.2.1 提示工程對成本的影響 62
3.2.2 清晰直接的提示詞 66
3.2.3 提供上下文 75
3.2.4 明確所需的回答格式 80
3.3 使用向量存儲進行緩存 84
3.3.1 向量存儲的概念 84
3.3.2 使用向量存儲實現緩存 85
3.3.3 結論 87
3.4 長文檔的鏈式處理 88
3.4.1 鏈的概念 88
3.4.2 實現鏈式處理 89
3.5 摘要 98
3.6 高效推理的批量提示 100
3.6.1 批量推理 100
3.6.2 批量提示 106
3.7 模型優化方法 107
3.7.1 量化 108
3.7.2 代碼示例 109
3.7.3 最新進展:GPTQ 110
3.8 參數高效微調方法 110
3.8.1 PEFT方法回顧 111
3.8.2 代碼示例 112
3.9 成本和性能影響 113
3.10 本章小結 114
3.11 參考文獻 114
第4章 模型選擇及替代方案 115
4.1 模型選擇入門 115
4.2 啟發性案例:兩類模型的故事 115
4.3 緊湊靈活模型的作用 117
4.4 小型模型的成功案例 118
4.4.1 量化:打造性能強大的小型模型 118
4.4.2 用Mistral 7B模型做文本生成 120
4.4.3 Zephyr 7B與對齊的小型模型 121
4.4.4 用於語言-視覺多模態的CogVLM模型 124
4.4.5 應用於細粒度文本評估的Prometheus模型 125
4.4.6 Orca 2模型:教會小模型做推理 128
4.4.7 Gemini和Phi對傳統縮放定律的突破 129
4.4.8 Phi系列模型 130
4.4.9 Gemini模型 132
4.5 領域專用模型 135
4.5.1 第一步:訓練你自己的分詞器 136
4.5.2 第二步:訓練你自己的領域專用模型 138
4.6 通用模型提示工程的威力 154
4.7 本章小結 156
第5章 基礎設施與部署調優策略 157
5.1 調優策略概述 157
5.2 硬件利用率和批處理調優 157
5.2.1 GPU內存占用率 160
5.2.2 在顯存中容納更大模型的策略 163
5.2.3 KV緩存 164
5.2.4 PagedAttention 166
5.2.5 AlphaServe 168
5.2.6 S3:基於推測的序列調度 171
5.2.7 帶有註意力匯聚點的流式大型語言模型 173
5.2.8 批次大小的調優 178
5.2.9 自動尋找最佳的推理配置 188
5.3 推理加速工具 198
5.3.1 TensorRT和GPU加速工具 199
5.3.2 CPU加速工具 200
5.4 監控和可觀測性 201
5.5 本章小結 206
第6章 結語 207
6.1 平衡性能與成本 207
6.2 權衡分析 208
6.3 對生態環境的影響 209
6.4 組建GenAI團隊的重要性 210
6.4.1 GenAI團隊理想的結構 211
6.4.2 維持團隊所需成本 213
6.4.3 通過GenAI來輔助組建GenAI團隊 215
6.5 生成式人工智能應用的未來趨勢 216
6.5.1 趨勢1:混合專家模型 216
6.5.2 趨勢2:多模態模型 219
6.5.3 趨勢3:智能體 222
6.6 本章小結 228



