大規模語言模型:從理論到實踐
張奇 等
- 出版商: 電子工業
- 出版日期: 2024-01-01
- 定價: $654
- 售價: 8.5 折 $556 (限時優惠至 2025-12-31)
- 語言: 簡體中文
- 頁數: 320
- ISBN: 7121467054
- ISBN-13: 9787121467059
-
相關分類:
Large language model
-
相關翻譯:
LLM 走進你的電腦 - 自己動手開發大型語言模型應用 (繁中版)
-
其他版本:
大規模語言模型 (從理論到實踐第2版)
銷售排行:
🥈 2023/12 簡體中文書 銷售排行 第 2 名
買這商品的人也買了...
-
Deep Learning|用 Python 進行深度學習的基礎理論實作$580$458 -
集成式學習:Python 實踐!整合全部技術,打造最強模型 (Hands-On Ensemble Learning with Python: Build highly optimized ensemble machine learning models using scikit-learn and Keras)$750$638 -
$706下一代無線通信網絡:博弈建模、分析與設計 -
Keras 大神歸位:深度學習全面進化!用 Python 實作 CNN、RNN、GRU、LSTM、GAN、VAE、Transformer$1,200$948 -
Clean Architecture 無瑕的程式碼-整潔的軟體設計與架構篇 + 實作篇-在整潔的架構上弄髒你的手 (雙書合購)$1,080$820 -
$611深入淺出 SSD:固態存儲核心技術、原理與實戰, 2/e -
$458動手學機器學習 -
大神養成術 - Node.js+Express + MongoDB+Vue.js 全端實作現場$800$632 -
$422從零開始大模型開發與微調:基於 PyTorch 與 ChatGLM -
Hugging Face 模型及資料大公開 - 利用 BERT 建立全中文 NLP 應用$720$569 -
$510多模態大模型:技術原理與實戰 -
$454RISC-V 開放架構設計之道 -
$396ChatGPT 風暴:大語言模型、生成式AI 與 AIGC 顛覆創新範式 -
$473YOLO 目標檢測 -
ChatGPT 開發手冊 Turbo × Vision 進化版 — 用 OpenAI Chat/Assistants API‧Function calling 設計 GPTs action‧LINE/Discord bot‧股市分析/自動助理$820$648 -
$449基於 GPT-3、ChatGPT、GPT-4 等 Transformer 架構的自然語言處理 -
$469LangChain 入門指南:構建高可復用、可擴展的 LLM 應用程序 -
跟 NVIDIA 學深度學習!從基本神經網路到 ......、GPT、BERT...,紮穩機器視覺與大型語言模型 (LLM) 的建模基礎$880$748 -
Staff 工程師之路|獻給個人貢獻者成長與改變的導航指南 (The Staff Engineer's Path)$580$458 -
$374Llama 大模型實踐指南 -
新範式來臨 - 用 PyTorch 了解 LLM 開發微調 ChatGLM 全過程$980$774 -
$360LangChain 簡明講義:從0到1建構 LLM 應用程式 -
$421ChatGLM3 大模型本地化部署、應用開發與微調 -
$426大模型應用開發 : 動手做 AI Agent -
LLVM 編譯器原理與實務$834$792
中文年末書展|繁簡參展書2書75折 詳見活動內容 »
-
75折
為你寫的 Vue Components:從原子到系統,一步步用設計思維打造面面俱到的元件實戰力 (iThome 鐵人賽系列書)$780$585 -
75折
BDD in Action, 2/e (中文版)$960$720 -
75折
看不見的戰場:社群、AI 與企業資安危機$750$563 -
79折
AI 精準提問 × 高效應用:DeepSeek、ChatGPT、Claude、Gemini、Copilot 一本搞定$390$308 -
7折
超實用!Word.Excel.PowerPoint 辦公室 Office 365 省時高手必備 50招, 4/e (暢銷回饋版)$420$294 -
75折
裂縫碎光:資安數位生存戰$550$412 -
日本當代最強插畫 2025 : 150位當代最強畫師豪華作品集$640$576 -
79折
Google BI 解決方案:Looker Studio × AI 數據驅動行銷實作,完美整合 Google Analytics 4、Google Ads、ChatGPT、Gemini$630$498 -
79折
超有料 Plus!職場第一實用的 AI 工作術 - 用對 AI 工具、自動化 Agent, 讓生產力全面進化!$599$473 -
75折
從零開始學 Visual C# 2022 程式設計, 4/e (暢銷回饋版)$690$518 -
75折
Windows 11 制霸攻略:圖解 AI 與 Copilot 應用,輕鬆搞懂新手必學的 Windows 技巧$640$480 -
75折
精準駕馭 Word!論文寫作絕非難事 (好評回饋版)$480$360 -
Sam Yang 的插畫藝術:用 Procreate / PS 畫出最強男友視角 x 女孩美好日常$699$629 -
79折
AI 加持!Google Sheets 超級工作流$599$473 -
78折
想要 SSR? 快使用 Nuxt 吧!:Nuxt 讓 Vue.js 更好處理 SEO 搜尋引擎最佳化(iThome鐵人賽系列書)$780$608 -
78折
超實用!業務.總管.人資的辦公室 WORD 365 省時高手必備 50招 (第二版)$500$390 -
7折
Node-RED + YOLO + ESP32-CAM:AIoT 智慧物聯網與邊緣 AI 專題實戰$680$476 -
79折
「生成式⇄AI」:52 個零程式互動體驗,打造新世代人工智慧素養$599$473 -
7折
Windows APT Warfare:惡意程式前線戰術指南, 3/e$720$504 -
75折
我輩程式人:回顧從 Ada 到 AI 這條程式路,程式人如何改變世界的歷史與未來展望 (We, Programmers: A Chronicle of Coders from Ada to AI)$850$637 -
75折
不用自己寫!用 GitHub Copilot 搞定 LLM 應用開發$600$450 -
79折
Tensorflow 接班王者:Google JAX 深度學習又快又強大 (好評回饋版)$780$616 -
79折
GPT4 會你也會 - 共融機器人的多模態互動式情感分析 (好評回饋版)$700$553 -
79折
技術士技能檢定 電腦軟體應用丙級術科解題教本|Office 2021$460$363 -
75折
Notion 與 Notion AI 全能實戰手冊:生活、學習與職場的智慧策略 (暢銷回饋版)$560$420
相關主題
商品描述
2023年ChatGPT火爆全球,以其為代表的人工智能大語言模型成為全球人工智能從業者關註的焦點。 本書詳細介紹了構建大語言模型的四個主要階段:預訓練、有監督微調、獎勵建模和強化學習。每個階段都有算法、代碼、數據、難點及實踐經驗的詳細討論。本書以大語言模型的基礎理論開篇,探討了大語言模型預訓練數據的構建方法,以及大語言模型如何理解並服從人類指令,介紹了大語言模型的擴展應用和評估方法,為讀者提供了更全面的視野。 本書旨在為對大語言模型感興趣的讀者提供入門指南,也可作為高年級本科生和研究生自然語言處理相關課程的補充教材。
目錄大綱
第1章 緒論 1
1.1 大語言模型的基本概念 1
1.2 大語言模型的發展歷程 4
1.3 大語言模型的構建流程 8
1.4 本書的內容安排 11
第2章 大語言模型基礎 13
2.1 Transformer結構 13
2.1.1 嵌入表示層 14
2.1.2 註意力層 16
2.1.3 前饋層 18
2.1.4 殘差連接與層歸一化 19
2.1.5 編碼器和解碼器結構 20
2.2 生成式預訓練語言模型GPT 25
2.2.1 無監督預訓練 26
2.2.2 有監督下遊任務微調 27
2.2.3 基於HuggingFace的預訓練語言模型實踐 27
2.3 大語言模型的結構 33
2.3.1 LLaMA的模型結構 34
2.3.2 註意力機制優化 40
2.4 實踐思考 47
第3章 大語言模型預訓練數據 49
3.1 數據來源 49
3.1.1 通用數據 50
3.1.2 專業數據 51
3.2 數據處理 52
3.2.1 質量過濾 52
3.2.2 冗餘去除 53
3.2.3 隱私消除 55
3.2.4 詞元切分 55
3.3 數據影響分析 61
3.3.1 數據規模 61
3.3.2 數據質量 64
3.3.3 數據多樣性 66
3.4 開源數據集 68
3.4.1 Pile 68
3.4.2 ROOTS 71
3.4.3 RefinedWeb 73
3.4.4 SlimPajama 75
3.5 實踐思考 79
第4章 分佈式訓練 80
4.1 分佈式訓練概述 80
4.2 分佈式訓練的並行策略 83
4.2.1 數據並行 84
4.2.2 模型並行 88
4.2.3 混合並行 96
4.2.4 計算設備內存優化 97
4.3 分佈式訓練的集群架構 102
4.3.1 高性能計算集群的典型硬件組成 102
4.3.2 參數服務器架構 103
4.3.3 去中心化架構 104
4.4 DeepSpeed實踐 110
4.4.1 基礎概念 112
4.4.2 LLaMA分佈式訓練實踐 115
4.5 實踐思考 127
第5章 有監督微調 128
5.1 提示學習和語境學習 128
5.1.1 提示學習 128
5.1.2 語境學習 130
5.2 高效模型微調 131
5.2.1 LoRA 131
5.2.2 LoRA的變體 135
5.3 模型上下文視窗擴展 137
5.3.1 具有外推能力的位置編碼 137
5.3.2 插值法 138
5.4 指令數據的構建 141
5.4.1 手動構建指令 141
5.4.2 自動構建指令 142
5.4.3 開源指令數據集 146
5.5 DeepSpeed-Chat SFT實踐 147
5.5.1 代碼結構 148
5.5.2 數據預處理 151
5.5.3 自定義模型 153
5.5.4 模型訓練 155
5.5.5 模型推理 156
5.6 實踐思考 157
第6章 強化學習 158
6.1 基於人類反饋的強化學習 158
6.1.1 強化學習概述 159
6.1.2 強化學習與有監督學習的區別 161
6.1.3 基於人類反饋的強化學習流程 162
6.2 獎勵模型 163
6.2.1 數據收集 164
6.2.2 模型訓練 166
6.2.3 開源數據 167
6.3 近端策略優化 168
6.3.1 策略梯度 168
6.3.2 廣義優勢估計 173
6.3.3 近端策略優化演算法 175
6.4 MOSS-RLHF實踐 180
6.4.1 獎勵模型訓練 180
6.4.2 PPO微調 181
6.5 實踐思考 191
第7章 大語言模型應用 193
7.1 推理規劃 193
7.1.1 思維鏈提示 193
7.1.2 由少到多提示 196
7.2 綜合應用框架 197
7.2.1 LangChain框架核心模塊 198
7.2.2 知識庫問答系統實踐 216
7.3 智能代理 219
7.3.1 智能代理的組成 219
7.3.2 智能代理的應用實例 221
7.4 多模態大語言模型 228
7.4.1 模型架構 229
7.4.2 數據收集與訓練策略 232
7.4.3 多模態能力示例 236
7.5 大語言模型推理優化 238
7.5.1 FastServe框架 241
7.5.2 vLLM推理框架實踐 242
7.6 實踐思考 244
第8章 大語言模型評估 245
8.1 模型評估概述 245
8.2 大語言模型評估體系 247
8.2.1 知識與能力 247
8.2.2 倫理與安全 250
8.2.3 垂直領域評估 255
8.3 大語言模型評估方法 260
8.3.1 評估指標 260
8.3.2 評估方法 267
8.4 大語言模型評估實踐 274
8.4.1 基礎模型評估 274
8.4.2 SFT模型和RL模型評估 277
8.5 實踐思考 282
參考文獻 284
索引 303
