Happy-LLM：從零開始構建大模型

朱信忠宋誌學鄒雨衡

預覽內頁

出版商: 人民郵電
出版日期: 2026-06-01
定價: $479
售價: $478
語言: 簡體中文
頁數: 220
ISBN: 7115685037
ISBN-13: 9787115685032
相關分類: Large language model

下單後立即進貨 (約2週~3週)

商品描述

2022年底，ChatGPT的誕生引發變革，以GPT系列模型為代表的大語言模型（Large Language Model，LLM）成為人工智能領域的研究熱點，LLM在此背景下基於預訓練語言模型取得突破性進展。本書分為基礎知識與實戰應用兩大部分，基礎知識部分包含第1～4章，首先介紹NLP的基本任務及文本表示的發展歷程，接著闡述LLM基本架構Transformer和經典PLM架構，最後詳述LLM的特點、能力和訓練過程；實戰應用部分包含第5～7章，依次講解基於PyTorch搭建LLM的全流程，借助主流框架實現LLM訓練，以及LLM的各類應用，幫助讀者構建完整的LLM知識體系。

本書適合具備一定編程經驗（尤其對Python編程語言有所了解）、掌握深度學習相關知識且了解NLP領域相關概念和術語的大學生、研究人員及LLM愛好者閱讀。

作者簡介

朱信忠，工學博士，博士生導師，二級教授，浙江省特級專家，浙江師範大學杭州人工智能研究院院長，工業和信息化部人工智能產業創新任務“智能機器人”揭榜掛帥項目負責人，國家高層次人才，國家有突出貢獻中青年專家，國家科技進步獎二等獎第一完成人，享受國務院政府特殊津貼。Datawhale 首席科學家，Happy-LLM、Hello-Agents 等開源項目總體負責人及核心貢獻者。主要研究方向為大模型、具身智能、世界模型、自主移動機器人及低空具身等。通過“場景—數據—技術—泛化”閉環疊代，推動具身智能揀貨、焊接、裝配、抹灰、噴塗等下一代“感知—理解—決策—執行”智能體技術與商業的協同進化。

宋誌學，河南理工大學工學學士、測繪工程碩士，西湖大學通用人工智能實驗室科研助理。研究方向為自然語言處理、多模態大模型智能體落地應用。Datawhale 成員，Self-LLM、Happy-LLM 等開源項目負責人，所負責項目數十次登上 GitHub 趨勢榜單，累計獲得GitHub 星標 5.5 萬余次。

鄒雨衡，對外經濟貿易大學數據科學與大數據技術學士、管理科學與工程碩士，小紅書人工智能工程師，研究方向為大語言模型、大模型智能體及其落地應用。Datawhale 成員，LLM-Cookbook、LLM-Universe 等開源項目負責人，所負責項目數十次登上 GitHub 趨勢榜單，累計獲得 GitHub 星標 7.6 萬余次。

目錄大綱

第 1 章　NLP 基礎概念　1

1.1　什麼是 NLP　1

1.2 NLP 發展歷程　2

1.3 NLP 任務　3

　1.3.1　中文分詞　3

　1.3.2　子詞切分　3

　1.3.3　詞性標註　4

　1.3.4　文本分類　5

　1.3.5　實體識別　5

　1.3.6　關系抽取　6

　1.3.7　文本摘要　6

　1.3.8　機器翻譯　7

　1.3.9　自動問答　8

1.4　文本表示的發展歷程　8

　1.4.1　詞向量　9

　1.4.2　語言模型　10

　1.4.3 Word2Vec　10

　1.4.4 ELMo　11

1.5　本章小結　12

參考資料　12

第 2 章　 Transformer 架構　14

2.1　註意力機制　14

　2.1.1　什麼是註意力機制　14

　2.1.2　深入理解註意力機制　17

　2.1.3　註意力機制的實現　19

　2.1.4　自註意力　20

　2.1.5　掩碼自註意力　20

　2.1.6　多頭註意力　22

2.2　編碼器 - 解碼器架構　26

　2.2.1 Seq2Seq　27

　2.2.2　全連接神經網絡　28

　2.2.3　層歸一化　29

　2.2.4　殘差連接　31

　2.2.5　編碼器　32

　2.2.6　解碼器　33

2.3　搭建一個 Transformer 模型　34

　2.3.1　嵌入層　35

　2.3.2　位置編碼　36

　2.3.3　一個完整的 Transformer　41

參考資料　44

第 3 章　PLM　45

3.1　僅編碼器 PLM　45

　3.1.1 BERT　46

　3.1.2 RoBERTa　54

　3.1.3 ALBERT　57

3.2　編碼器 - 解碼器 PLM　59

T5　60

3.3　僅解碼器 PLM　66

　3.3.1 GPT　66

　3.3.2 LLaMA　72

　3.3.3 GLM　74

參考資料　78

第 4 章 LLM　80

4.1　什麼是 LLM　81

　4.1.1 LLM 的定義　81

　4.1.2 LLM 的能力　82

　4.1.3 LLM 的特點　84

4.2　如何訓練一個 LLM　86

　4.2.1　預訓練　87

　4.2.2 SFT　91

　4.2.3 RLHF　96

參考資料　100

第 5 章　動手搭建大模型　101

5.1　動手搭建一個 LLaMA2 大模型　101

　5.1.1　定義超參數　101

　5.1.2　構建 RMS 歸一化　102

　5.1.3　構建 LLaMA2 Attention 模塊　104

　5.1.4　構建 LLaMA2 MLP 模塊　111

　5.1.5　構建 LLaMA2 的解碼器層　113

　5.1.6　構建 LLaMA2 大模型　115

5.2　訓練分詞器　119

　5.2.1　詞級分詞器　119

　5.2.2　字符級分詞器　120

　5.2.3　子詞級分詞器　120

　5.2.4　訓練一個分詞器　122

5.3　預訓練一個小型 LLM　129

　5.3.1　數據下載　129

　5.3.2　分詞器訓練實戰　131

　5.3.3　數據集　137

　5.3.4　預訓練　142

　5.3.5 SFT 訓練　148

　5.3.6　使用模型生成文本　154

第 6 章　大模型訓練流程實踐　161

6.1　模型預訓練　161

　6.1.1 Transformers 框架介紹　161

　6.1.2　初始化 LLM　162

　6.1.3　預訓練數據處理　166

　6.1.4　使用 Trainer 類進行訓練　169

　6.1.5　使用 DeepSpeed 實現分布式訓練　170

6.2　模型 SFT　178

　6.2.1　預訓練與 SFT　179

　6.2.2　微調數據處理　179

6.3　高效微調　185

　6.3.1　高效微調方案　186

　6.3.2 LoRA 微調　187

　6.3.3 LoRA 微調的原理　188

　6.3.4 LoRA 微調的代碼實現　189

　6.3.5　使用 peft 實現 LoRA 微調　192

參考資料　194

第 7 章　大模型應用　195

7.1　大模型評測　195

　7.1.1 LLM 的評測數據集　196

　7.1.2　主流的大模型評測榜單　197

　7.1.3　特定的大模型評測榜單　198

7.2 RAG　199

　7.2.1 RAG 的基本原理　199

　7.2.2　實現一個 RAG 框架　200

7.3　智能體　209

　7.3.1　什麼是智能體　209

　7.3.2　智能體的類型　210

　7.3.3　動手構造一個小型智能體　212

參考資料　219

Happy-LLM：從零開始構建大模型

朱信忠宋誌學鄒雨衡

商品描述

作者簡介

目錄大綱

類似商品

最後瀏覽商品 (8)

Happy-LLM：從零開始構建大模型

朱信忠 宋誌學 鄒雨衡

商品描述

作者簡介

目錄大綱

類似商品

最後瀏覽商品 (8)

朱信忠宋誌學鄒雨衡