大模型基礎、架構與開發實戰

王振麗

  • 出版商: 化學工業
  • 出版日期: 2026-03-01
  • 售價: $594
  • 語言: 簡體中文
  • 頁數: 289
  • ISBN: 7122491323
  • ISBN-13: 9787122491329
  • 相關分類: Large language model
  • 下單後立即進貨 (約4週~6週)

商品描述

本書系統闡述了大模型基礎與架構的相關知識,全面覆蓋大模型開發、訓練、優化和部署的核心技術要點。全書共分為12章,從大模型的基本概念與發展背景、深度學習技術棧到模型的預訓練與微調,再到DeepSeek的混合專家模型系統和多模態大模型開發,深入講解了大模型的理論與實踐。內容涵蓋從數據預處理、網絡模型構建到高性能計算和模型優化的完整開發流程,為讀者提供了關於大模型的全景式指導。本書詳細講解了深度學習框架的選擇與應用、分布式訓練技術、數據管理與存儲優化以及硬件加速方案,幫助讀者在覆雜的大模型開發環境中快速入門並掌握核心技術。此外,針對模型的輸入輸出解析、性能評估與解釋、模型優化策略等關鍵環節,書中提供了豐富的理論講解與實際案例,幫助讀者全面理解大模型的開發過程與優化路徑。無論您是人工智能領域的技術開發者、科研人員,還是對大模型技術感興趣的初學者,抑或是相關專業的在校學生,本書都將為您提供從基礎到前沿的 指導,助您掌握大模型開發的核心技能與實踐方法。

目錄大綱

第1章 大模型基礎    001
1.1 人工智能    002
1.1.1 人工智能的發展歷程    002
1.1.2 人工智能的研究領域    003
1.1.3 人工智能對人們生活的影響    003
1.2 機器學習和深度學習    004
1.2.1 機器學習    004
1.2.2 深度學習    004
1.2.3 機器學習和深度學習的區別    005
1.3 大模型介紹    006
1.3.1 大模型的作用    006
1.3.2 數據    006
1.3.3 數據和大模型的關系    007

第2章 大模型開發技術棧    008
2.1 深度學習框架    009
2.2 分布式計算與並行訓練    010
2.2.1 數據並行與模型並行的原理    010
2.2.2 分布式訓練框架    010
2.2.3 混合精度訓練與內存優化    011
2.2.4 分布式訓練的網絡架構與通信優化    012
2.3 數據處理與存儲技術    014
2.3.1 大規模數據的清洗與管理    014
2.3.2 數據庫與數據湖    015
2.3.3 分布式文件系統與雲存儲    016
2.3.4 數據加載與預處理加速技術    017
2.4 硬件加速與高性能計算    018
2.4.1 GPU與TPU的架構與應用    018
2.4.2 AI專用芯片    019
2.4.3 FPGA與ASIC在大模型中的應用    020
2.4.4 硬件資源的高效利用與部署策略    020
2.5 模型開發的工具與平臺    021
2.5.1 自動化機器學習平臺    021
2.5.2 實驗管理與追蹤工具    022
2.5.3 代碼與版本管理    023
2.5.4 開源大模型平臺與工具    023

第3章 數據集的預處理    025
3.1 加載數據集    026
3.1.1 PyTorch加載數據集    026
3.1.2 TensorFlow加載數據集    027
3.2 制作數據集    028
3.2.1 自定義數據集    028
3.2.2 制作簡易圖片數據集    030
3.2.3 制作有標簽的數據集    032
3.3 數據清洗和處理    034
3.3.1 處理缺失值    034
3.3.2 異常值檢測與處理    035
3.3.3 處理重覆數據    037
3.4 數據轉換與整合    038
3.4.1 特征選擇與抽取    038
3.4.2 特征變換與降維    039
3.4.3 數據集成與關聯    040
3.5 數據標準化與歸一化    041
3.5.1 標準化與其重要性    041
3.5.2 特征縮放和歸一化    042
3.5.3 數據轉換和規範化    043
3.5.4 “最小-最大”縮放    045
3.6 數據增強技術    046
3.6.1 數據增強的意義    046
3.6.2 圖像數據增強    046

第4章 機器學習網絡模型    050
4.1 機器學習簡介    051
4.1.1 數據在機器學習中的角色    051
4.1.2 機器學習的目標    051
4.2 監督學習、無監督學習與強化學習    052
4.2.1 監督學習    052
4.2.2 無監督學習    052
4.2.3 強化學習    052
4.3 網絡模型    053
4.3.1 機器學習中的網絡模型    053
4.3.2 線性回歸模型    054
4.3.3 構建邏輯回歸模型    055
4.3.4 支持向量機    057
4.3.5 決策樹    060
4.3.6 隨機森林    061
4.3.7 K近鄰算法模型    064

第5章 深度學習網絡模型    067
5.1 深度學習的起源與發展    068
5.1.1 早期的人工神經網絡與感知機    068
5.1.2 深度學習的突破    068
5.1.3 深度學習的黃金時代    069
5.2 神經網絡    070
5.2.1 神經網絡的前向傳播與反向傳播    070
5.2.2 神經網絡的訓練過程    070
5.3 激活函數與損失函數    072
5.3.1 激活函數的種類與選擇    072
5.3.2 損失函數的作用與類型    073
5.3.3 激活函數與損失函數的結合    074
5.4 深度學習模型    074
5.4.1 深度學習中的網絡模型    075
5.4.2 前饋神經網絡    076
5.4.3 卷積神經網絡    077
5.4.4 循環神經網絡    081
5.4.5 長短期記憶網絡    083
5.4.6 生成對抗網絡    084

第6章 大模型的輸入與輸出解析    089
6.1 大模型輸入輸出設計    090
6.1.1 輸入數據類型與格式    090
6.1.2 輸入的預處理與標準化    091
6.1.3 輸出結構的設計    093
6.1.4 輸入輸出接口設計    095
6.2 數據流和數據結構    097
6.2.1 數據流的設計與管理    097
6.2.2 數據結構的選擇與優化    100
6.2.3 數據批處理與緩存    102
6.3 輸出解析與後處理    104
6.3.1 分類與標註結果的處理    105
6.3.2 序列化與反序列化    107
6.3.3 輸出後處理中的可視化    110

第7章 模型評估與解釋    113
7.1 模型評估的基本概念    114
7.1.1 評估指標的定義與選擇    114
7.1.2 評估指標的數學基礎    115
7.2 性能度量與損失函數    118
7.2.1 損失函數與性能度量的關系    118
7.2.2 評估分類任務    119
7.3 模型解釋性    121
7.3.1 模型解釋性的基本概念    122
7.3.2 模型解釋性實踐    122
7.4 靈敏度分析與梯度檢查    125
7.4.1 概率與統計在靈敏度分析中的作用    125
7.4.2 梯度檢查    127
7.5 誤差分析與模型診斷    132
7.5.1 誤差分析介紹    132
7.5.2 模型診斷    134

第8章 模型優化與加速    139
8.1 模型優化和加速簡介    140
8.2 梯度下降算法    140
8.2.1 梯度下降算法的實現步驟    140
8.2.2 使用梯度計算優化模型    141
8.2.3 隨機梯度下降    143
8.2.4 動量法    145
8.2.5 自適應學習率算法    147
8.3 模型優化算法    150
8.3.1 牛頓法與擬牛頓法    150
8.3.2 自適應優化算法    152
8.3.3 二階優化    155
8.4 正則化技術    156
8.4.1 L1正則化    156
8.4.2 L2正則化    158
8.4.3 Dropout    161
8.4.4 彈性網    164
8.5 超參數優化    166
8.5.1 超參數基礎    166
8.5.2 貝葉斯優化    167
8.6 模型並行和數據並行    168
8.6.1 模型並行和數據並行的基本概念    168
8.6.2 TensorFlow模型並行和數據並行實踐    169
8.6.3 PyTorch模型並行和數據並行實踐    171

第9章 大模型的預訓練與微調    172
9.1 預訓練簡介    173
9.1.1 預訓練的目的與意義    173
9.1.2 預訓練模型的通用架構    173
9.1.3 常見的預訓練任務類型    174
9.2 預訓練數據的構建    175
9.2.1 數據收集與清洗    175
9.2.2 數據增強與標註    175
9.2.3 數據分布對模型性能的影響    176
9.3 預訓練模型的實現    176
9.3.1 編碼器模型:BERT    177
9.3.2 解碼器模型:GPT    179
9.4 大模型微調    182
9.4.1 微調的定義與應用場景    182
9.4.2 微調與預訓練的差異    182
9.4.3 常用的微調方法    183
9.5 CLIP模型預訓練與微調    184
9.5.1 項目介紹    184
9.5.2 創建文本和圖像配對數據集    185
9.5.3 配置CLIP代碼文件    188
9.5.4 訓練模型    205
9.5.5 模型微調    206
9.5.6 調試運行    207

第10章 大模型的部署與維護    208
10.1 大模型部署    209
10.1.1 部署前的準備工作    209
10.1.2 部署環境搭建與優化    210
10.1.3 部署中的挑戰與解決方案    211
10.2 大模型維護    212
10.2.1 模型監控與反饋機制    212
10.2.2 模型更新與疊代    213
10.2.3 模型安全性與合規性    214
10.3 大模型部署實戰    216
10.3.1 在阿裏雲上部署ChatGLM3    216
10.3.2 騰訊部署Cloud Studio    221
10.3.3 本地部署DeepSeek
與Chatbox可視化    221

第11章 DeepSeek的MoE(混合專家模型)系統    227
11.1 項目介紹    228
11.1.1 基本特點    228
11.1.2 開源內容    229
11.2 功能模塊    229
11.3 ZeRO配置    230
11.3.1 ZeRO優化器介紹    230
11.3.2 第2階段優化配置    230
11.3.3 第3階段優化配置    231
11.3.4 優化總結    232
11.4 模型微調    233
11.4.1 微調原理    233
11.4.2 生成提示文本    234
11.4.3 配置模型微調參數    234
11.4.4 設置訓練數據    235
11.4.5 配置超參數    235
11.4.6 保存模型    236
11.4.7 獲取最新檢查點    236
11.4.8 安全保存模型    237
11.4.9 分詞處理    237
11.4.10 文本預處理    238
11.4.11 數據收集器    238
11.4.12 訓練數據的分詞和預處理    239
11.4.13 構建和配置模型    239
11.4.14 訓練模型    240
11.4.15 微調模型    243
11.5 下載和調用模型    244
11.5.1 下載模型    244
11.5.2 調用模型    244

第12章 基於多模態大模型的文生圖系統    247
12.1 背景介紹    248
12.2 系統分析    248
12.2.1 需求分析    248
12.2.2 功能分析    248
12.3 系統配置    249
12.3.1 配置模型參數    249
12.3.2 輔助函數    250
12.3.3 數據集處理    251
12.4 多模態生成對抗網絡(GAN)模型    255
12.4.1 準備CLIP    255
12.4.2 訓練、評估和保存GAN模型    255
12.4.3 InceptionV3模型的預訓練    265
12.4.4 實現多模態GAN模型    265
12.4.5 訓練模型    280
12.5 Gradio模型部署和展示    283
12.5.1 加載模型    283
12.5.2 深度生成對抗網絡(GAN)模型    284
12.5.3 文本生成圖像    285
12.5.4 Gradio主界面    287
12.6 調試運行    288