精益大模型:成本優化與工程實踐

[美] 施雷亞斯·蘇布拉曼尼安(Shreyas Subramanian)著 陳堰平、楊薈、袁銘 譯

  • 精益大模型:成本優化與工程實踐-preview-1
  • 精益大模型:成本優化與工程實踐-preview-2
  • 精益大模型:成本優化與工程實踐-preview-3
精益大模型:成本優化與工程實踐-preview-1

相關主題

商品描述

"平衡好性能與成本,深度挖掘AI潛能 隨著人工智能和機器學習的發展,大語言模型(LLM)日益普及,但其高昂的計算成本成為許多企業入局的障礙。本書提供了構建和部署大語言模型的高***方 案,從模型選擇、提示工程到微調和部署的每個環節,指導讀者在不過度犧牲性能的前提下有效控制成本。 《精益大模型:成本優化與工程實踐》專為開發者和數據科學家而寫,提供了實施搜索系統、智能助手和自主智能體等有價值的生成式AI應用所需的實用技術知 識。本書深入探討了優化推理的技術,如模型量化和剪枝,並分析了在基礎設施層面降低成本的機會。此外,本書展望了大語言模型成本優化的未來趨勢,助你在生 成式AI的下一階段保持競爭力。 本書由亞馬遜**數據科學家Shreyas Subramanian撰寫,將帶你攻克與大語言模型相關的挑戰,並成功落地生成式AI解決方案。"

作者簡介

"ShreyasSubramanian博士是亞馬遜雲服務公司(AWS)的首席數據科學家。AWS是自前**的企業級大語言模型構建者和提供商之一。Shreyas目前為亞馬遜內部團隊以及大型企業客戶提供咨詢服務,協助他們規模化構建、調優和部署生成式Ai應用。Shrevas開設了以機器學習為核心的成本優化研討會,助力企業降低雲端機器學習應用的成本。此外,他積極投身前沿技術研發,專註於基礎模型的高級訓練、調優和部署等工作。"

目錄大綱

目    錄

第1章  引言   1

1.1  GenAI應用和大語言模型概述   1

1.1.1  大語言模型的崛起   1

1.1.2  神經網絡、Transformer及其未來發展   2

1.1.3  GenAI與LLM的區別   6

1.1.4  GenAI應用的三層架構   8

1.2  將GenAI應用投入生產的途徑   11

1.3  成本優化的重要性   15

1.3.1  模型推理組件的成本評估   16

1.3.2  向量數據庫組件的成本評估   24

1.3.3  大語言模型組件的成本評估   31

1.4  本章小結   35

第2章  微調技術與成本優化   37

2.1  微調和可定制性   37

2.2  參數高效微調方法   41

2.2.1  適配器的內在機制   42

2.2.2  低秩適配   54

2.3  PEFT方法的成本和性能影響   57

2.4  本章小結   60

第3章  推理成本的優化技巧   61

3.1  推理技術簡介   61

3.2  提示工程   62

3.2.1  提示工程對成本的影響   62

3.2.2  清晰直接的提示詞   66

3.2.3  提供上下文   75

3.2.4  明確所需的回答格式   80

3.3  使用向量存儲進行緩存   84

3.3.1  向量存儲的概念   84

3.3.2  使用向量存儲實現緩存   85

3.3.3  結論   87

3.4  長文檔的鏈式處理   88

3.4.1  鏈的概念   88

3.4.2  實現鏈式處理   89

3.5  摘要   98

3.6  高效推理的批量提示   100

3.6.1  批量推理   100

3.6.2  批量提示   106

3.7  模型優化方法   107

3.7.1  量化   108

3.7.2  代碼示例   109

3.7.3  最新進展:GPTQ   110

3.8  參數高效微調方法   110

3.8.1  PEFT方法回顧   111

3.8.2  代碼示例   112

3.9  成本和性能影響   113

3.10  本章小結   114

3.11  參考文獻   114

第4章  模型選擇及替代方案   115

4.1  模型選擇入門   115

4.2  啟發性案例:兩類模型的故事   115

4.3  緊湊靈活模型的作用   117

4.4  小型模型的成功案例   118

4.4.1  量化:打造性能強大的小型模型   118

4.4.2  用Mistral 7B模型做文本生成   120

4.4.3  Zephyr 7B與對齊的小型模型   121

4.4.4  用於語言-視覺多模態的CogVLM模型   124

4.4.5  應用於細粒度文本評估的Prometheus模型   125

4.4.6  Orca 2模型:教會小模型做推理   128

4.4.7  Gemini和Phi對傳統縮放定律的突破   129

4.4.8  Phi系列模型   130

4.4.9  Gemini模型   132

4.5  領域專用模型   135

4.5.1  第一步:訓練你自己的分詞器   136

4.5.2  第二步:訓練你自己的領域專用模型   138

4.6  通用模型提示工程的威力   154

4.7  本章小結   156

第5章  基礎設施與部署調優策略   157

5.1  調優策略概述   157

5.2  硬件利用率和批處理調優   157

5.2.1  GPU內存占用率   160

5.2.2  在顯存中容納更大模型的策略   163

5.2.3  KV緩存   164

5.2.4  PagedAttention   166

5.2.5  AlphaServe   168

5.2.6  S3:基於推測的序列調度   171

5.2.7  帶有註意力匯聚點的流式大型語言模型   173

5.2.8  批次大小的調優   178

5.2.9  自動尋找最佳的推理配置   188

5.3  推理加速工具   198

5.3.1  TensorRT和GPU加速工具   199

5.3.2  CPU加速工具   200

5.4  監控和可觀測性   201

5.5  本章小結   206

第6章  結語   207

6.1  平衡性能與成本   207

6.2  權衡分析   208

6.3  對生態環境的影響   209

6.4  組建GenAI團隊的重要性   210

6.4.1 GenAI團隊理想的結構   211

6.4.2  維持團隊所需成本   213

6.4.3  通過GenAI來輔助組建GenAI團隊   215

6.5  生成式人工智能應用的未來趨勢   216

6.5.1  趨勢1:混合專家模型   216

6.5.2  趨勢2:多模態模型   219

6.5.3  趨勢3:智能體   222

6.6  本章小結   228