大規模語言模型 (從理論到實踐第2版)

張奇桂韜鄭銳黃萱菁

出版商: 電子工業
出版日期: 2025-04-01
售價: $828
貴賓價: 9.5 折 $786
語言: 簡體中文
頁數: 454
ISBN: 7121500574
ISBN-13: 9787121500572
相關分類: Large language model

立即出貨

買這商品的人也買了...

~~$594~~ $564

徵服 C指針, 2/e
~~$750~~ $592

最強 AI 投資分析：打造自己的股市顧問機器人，股票趨勢分析 × 年報解讀 × 選股推薦 × 風險管理
$402

Llama 大模型實踐指南
$703

嵌入式系統設計權威指南：基於STM32G071和Arm Cortex-M0+的系統集成
~~$650~~ $513

LLM 的大開源時代 - Llama 模型精讀實戰
~~$380~~ $300

工程師的思考法則：擁有科學邏輯的頭腦，像工程師一樣思考【暢銷經典版】
$464

生成式 AI 賦能一本通編程數據科學與專業寫作
~~$650~~ $487

生成式 AI 專案實踐指南：從模型挑選、上線、RAG 技術到 AI Agent 整合
~~$534~~ $507

用 Cursor 玩轉 AI 輔助編程 (不寫代碼也能做軟件開發)
~~$690~~ $545

GitHub Copilot 讓你寫程式快 10 倍！AI 程式開發大解放
$374

人人玩賺 AI 編程：從入門到變現一本通關 (Cursor + Claude)
~~$880~~ $748

AI Vision × LLM 電腦視覺應用聖經：OpenCV × YOLO × Ollama 解鎖多模態全攻略
~~$980~~ $774

生成式 AI x RAG x Hugging Face 提示工程打造數據採樣神技
~~$600~~ $396

RAG × LangChain 整合應用：從問診機器人開始，打造可信任的 AI 系統 (iThome鐵人賽系列書)
~~$650~~ $637

品質管制 (Gupta：Statistical Quality Control: Using Minitab, R, JMP, and Python)
~~$750~~ $592

本地端 Ollama × LangChain × LangGraph × LangSmith 開發手冊：打造 RAG、Agent、SQL 應用
~~$594~~ $564

裸機 C編程：嵌入式系統 C程序設計
$407

構建 Agentic AI 系統：打造能推理、可規劃、自適應的 AI 智能體
$474

零基礎搭建自媒體AI Agent：用智能體一鍵打造個人品牌
$810

現代數學之旅 (上冊) (原書第10版)
~~$779~~ $740

算法思維：競賽真題精選精講, 2/e
$810

現代數學之旅 (下冊) (原書第10版)
~~$539~~ $512

動手學大模型智能體
~~$630~~ $497

AI 研究寫作全攻略：NotebookLM × Gemini × ChatGPT × Perplexity
~~$499~~ $374

AI 超神應用術：Google Gemini × NotebookLM × Nano Banana Pro × Veo × Flow × Gemini Live 全解鎖 (最強全面升級版)(附3大學習資源：範例素材/提示詞/影音教學)

商品描述

本書圍繞大語言模型構建的四個階段：預訓練、指令微調、獎勵建模和強化學習，詳述各階段所使用的算法、數據、難點及實踐經驗。在此基礎上，進一步探討了增強大語言模型能力、提升效率及如何將大語言模型落地應用的實踐經驗，涵蓋多模態、智能體等熱門方向，全面展現了大語言模型研究的最新進展。本書適合對深入研究大語言模型內在機制和實現方法感興趣的讀者閱讀，也可作為高年級本科生和研究生自然語言處理課程中相關部分的補充教材。

作者簡介

黃萱菁，覆旦大學計算機科學技術學院教授、博士生導師。主要從事自然語言處理、信息檢索和社會媒體分析研究。兼任中國中文信息學會常務理事、社會媒體專委會副主任，中國計算機學會自然語言處理專委會副主任、學術工作委員會委員、AACL執委。在高水平國際學術期刊和會議上發表了百餘篇論文，負責的多個科研項目受到國家自然科學基金、科技部、教育部、上海市科委的支持。入選2020年度人工智能全球女性、2020年度AI 2000人工智能全球最具影響力提名學者及福布斯中國2020科技女性榜。

目錄大綱

第1章緒論
1.1 大語言模型的基本概念
1.2 大語言模型的發展歷程
1.3 大語言模型的構建流程
1.4 本書的內容安排
第2章大語言模型基礎
2.1 Transformer結構
2.1.1 嵌入表示層
2.1.2 註意力層
2.1.3 前饋層
2.1.4 殘差連接與層歸一化
2.1.5 編碼器和解碼器結構
2.2 生成式預訓練語言模型GPT
2.2.1 自監督預訓練
2.2.2 有監督下遊任務微調
2.2.3 預訓練語言模型實踐
2.3 大語言模型的結構
2.3.1 LLaMA的模型結構
2.3.2 註意力機制優化
2.4 混合專家模型
2.4.1 稀疏混合專家模型
2.4.2 稠密混合專家模型
2.4.3 軟混合專家模型
2.5 實踐思考
第3章大語言模型預訓練數據
3.1 數據來源
3.1.1 通用數據
3.1.2 領域數據
3.2 數據處理
3.2.1 質量過濾
3.2.2 冗餘去除
3.2.3 隱私消除
3.2.4 詞元切分
3.3 數據影響分析
3.3.1 數據規模
3.3.2 數據質量
3.3.3 數據多樣性
3.4 開源數據集
3.4.1 Pile
3.4.2 ROOTS
3.4.3 RefinedWeb
3.4.4 CulturaX
3.4.5 SlimPajama
3.5 實踐思考
第4章分佈式訓練
4.1 分佈式訓練概述
4.2 分佈式訓練的並行策略
4.2.1 數據並行
4.2.2 模型並行
4.2.3 混合並行
4.2.4 計算設備內存優化
4.3 分佈式訓練的集群架構
4.3.1 高性能計算集群的典型硬件組成
4.3.2 參數服務器架構
4.3.3 去中心化架構
4.4 DeepSpeed實踐
4.4.1 基礎概念
4.4.2 LLaMA分佈式訓練實踐
4.5 實踐思考
第5章指令微調
5.1 指令微調訓練
5.1.1 指令微調數據
5.1.2 指令微調數據構建方法
……
第6章強化學習
第7章多模態大語言模型
第8章大模型智能體
第9章檢索增強生成
第10章大語言模型效率優化
第11章大語言模型評估
第12章大語言模型應用開發
參考文獻
索引