大規模語言模型(從理論到實踐第2版)

張奇 桂韜 鄭銳 黃萱菁

  • 出版商: 電子工業
  • 出版日期: 2025-04-01
  • 售價: $828
  • 語言: 簡體中文
  • 頁數: 454
  • ISBN: 7121500574
  • ISBN-13: 9787121500572
  • 下單後立即進貨 (約4週~6週)

相關主題

商品描述

本書圍繞大語言模型構建的四個階段:預訓練、指令微調、獎勵建模和強化學習,詳述各階段所使用的算法、數據、難點及實踐經驗。在此基礎上,進一步探討了增強大語言模型能力、提升效率及如何將大語言模型落地應用的實踐經驗,涵蓋多模態、智能體等熱門方向,全面展現了大語言模型研究的最新進展。本書適合對深入研究大語言模型內在機制和實現方法感興趣的讀者閱讀,也可作為高年級本科生和研究生自然語言處理課程中相關部分的補充教材。

作者簡介

黃萱菁,覆旦大學計算機科學技術學院教授、博士生導師。主要從事自然語言處理、信息檢索和社會媒體分析研究。兼任中國中文信息學會常務理事、社會媒體專委會副主任,中國計算機學會自然語言處理專委會副主任、學術工作委員會委員、AACL執委。在高水平國際學術期刊和會議上發表了百餘篇論文,負責的多個科研項目受到國家自然科學基金、科技部、教育部、上海市科委的支持。入選2020年度人工智能全球女性、2020年度AI 2000人工智能全球最具影響力提名學者及福布斯中國2020科技女性榜。

目錄大綱

第1章 緒論
1.1 大語言模型的基本概念
1.2 大語言模型的發展歷程
1.3 大語言模型的構建流程
1.4 本書的內容安排
第2章 大語言模型基礎
2.1 Transformer結構
2.1.1 嵌入表示層
2.1.2 註意力層
2.1.3 前饋層
2.1.4 殘差連接與層歸一化
2.1.5 編碼器和解碼器結構
2.2 生成式預訓練語言模型GPT
2.2.1 自監督預訓練
2.2.2 有監督下遊任務微調
2.2.3 預訓練語言模型實踐
2.3 大語言模型的結構
2.3.1 LLaMA的模型結構
2.3.2 註意力機制優化
2.4 混合專家模型
2.4.1 稀疏混合專家模型
2.4.2 稠密混合專家模型
2.4.3 軟混合專家模型
2.5 實踐思考
第3章 大語言模型預訓練數據
3.1 數據來源
3.1.1 通用數據
3.1.2 領域數據
3.2 數據處理
3.2.1 質量過濾
3.2.2 冗餘去除
3.2.3 隱私消除
3.2.4 詞元切分
3.3 數據影響分析
3.3.1 數據規模
3.3.2 數據質量
3.3.3 數據多樣性
3.4 開源數據集
3.4.1 Pile
3.4.2 ROOTS
3.4.3 RefinedWeb
3.4.4 CulturaX
3.4.5 SlimPajama
3.5 實踐思考
第4章 分佈式訓練
4.1 分佈式訓練概述
4.2 分佈式訓練的並行策略
4.2.1 數據並行
4.2.2 模型並行
4.2.3 混合並行
4.2.4 計算設備內存優化
4.3 分佈式訓練的集群架構
4.3.1 高性能計算集群的典型硬件組成
4.3.2 參數服務器架構
4.3.3 去中心化架構
4.4 DeepSpeed實踐
4.4.1 基礎概念
4.4.2 LLaMA分佈式訓練實踐
4.5 實踐思考
第5章 指令微調
5.1 指令微調訓練
5.1.1 指令微調數據
5.1.2 指令微調數據構建方法
……
第6章 強化學習
第7章 多模態大語言模型
第8章 大模型智能體
第9章 檢索增強生成
第10章 大語言模型效率優化
第11章 大語言模型評估
第12章 大語言模型應用開發
參考文獻
索引