深度剖析大語言模型——原理、演進與實踐
蔡宇昂、袁玉宇
- 出版商: 清華大學
- 出版日期: 2026-06-01
- 售價: $474
- 語言: 簡體中文
- ISBN: 7302718350
- ISBN-13: 9787302718352
-
相關分類:
Large language model
下單後立即進貨 (約4週~6週)
相關主題
商品描述
"本書以理論為核心,輔之以代碼示例,遵循自底向上的邏輯,依次詳細介紹了神經網絡、Transformer架構、傳統語言模型及現如今常見的大語言模型(Large Language Models,LLM),引導讀者漸進式地學習LLM的底層原理和上層應用,了解從傳統語言模型到LLM的演變過程,使讀者在參與LLM相關的學術研究和工程實踐時更加得心應手。 本書共12章。第1章簡要介紹LLM的基本概念;第2~4章介紹深度學習的基本原理和代碼實現;第5章介紹在自然語言處理中的基本概念;第6章從Encoder-Decoder架構出發介紹Transformer架構;第7~9章介紹基於Transformer架構的預訓練語言模型;第10章介紹LLM發展歷程中兩個具有裏程碑地位的語言模型GPT-3和T5;第11章詳細闡述現代LLM的構建方式;第12章介紹LLM的兩大應用,即提示工程和模型上下文協議。 本書在敘述知識和概念時均從初學者的直覺出發,適合沒有人工智能基礎的初學者入門,只要求讀者具備基本的代碼能力。書中創新性的分析角度和細致的代碼示例對於有經驗的研究人員和工程師也有一定參考價值,並可作為高等院校和培訓機構相關專業的教學參考書。 "
目錄大綱
目錄
本書源碼
第1章大語言模型簡介
1.1生成式人工智能
1.1.1判別任務與生成任務
1.1.2自回歸式生成
1.1.3判別與生成的邊界
1.2LLM原理概述
1.2.1ChatGPT簡介
1.2.2GPT模型的發展歷程
1.2.3GPT模型的指令微調
1.2.4GPT模型的可控生成
1.3LLM的能力與局限
1.3.1知識能力
1.3.2算術能力
1.3.3代碼能力
1.4本章小結
第2章神經網絡基本原理
2.1深度學習基本範式
2.1.1一切皆函數
2.1.2機器學習基本範式
2.1.3神經網絡與深度學習
2.2神經網絡的結構
2.2.1全連接神經網絡
2.2.2卷積神經網絡
2.2.3殘差連接和批量歸一化
2.2.4遞歸神經網絡
2.3神經網絡的衡量標準
2.3.1監督學習目標
2.3.2半監督學習目標
2.3.3強化學習目標
2.4神經網絡的優化
2.4.1前向傳播和反向傳播
2.4.2梯度下降方法
2.4.3模型性能的評估
2.4.4模型的過擬合
2.5本章小結
第3章深度學習環境搭建
3.1使用雲端交互式計算環境
3.1.1Jupyter的本地部署和基本操作
3.1.2Colab的使用方法
3.1.3在Kaggle中使用筆記本
3.2在Linux計算機上搭建深度學習環境
3.2.1安裝NVIDIA顯卡驅動
3.2.2安裝CUDA
3.2.3安裝cuDNN
3.2.4安裝Miniconda
3.2.5安裝PyTorch
3.3在Windows計算機上搭建深度學習環境
3.3.1安裝WSL2
3.3.2安裝NVIDIA顯卡驅動
3.3.3安裝CUDA和cuDNN
3.4本章小結
第4章神經網絡的構建、訓練與推理
4.1張量與張量運算
4.1.1認識張量
4.1.2張量的數據類型
4.1.3張量的存儲結構與訪問方法
4.1.4張量的運算
4.2PyTorch原理與實踐
4.2.1PyTorch計算圖與自動求導引擎
4.2.2使用PyTorch構建並訓練FCN
4.2.3常用的PyTorch內置模塊
4.2.4使用PyTorch模塊構建神經網絡
4.3案例: 使用LeNet進行手寫數字分類
4.3.1MNIST手寫數字分類任務簡介
4.3.2使用交互式計算環境進行探索式開發
4.3.3使用VS Code進行工程化開發
4.4本章小結
第5章自然語言處理相關概念
5.1分詞與標記化算法
5.1.1簡單分詞算法
5.1.2BPE算法
5.1.3WordPiece算法
5.2Word2Vec模型
5.2.1將單詞轉換為向量
5.2.2Word2Vec模型的構建與訓練
5.2.3監督學習與自監督學習
5.3語言建模
5.3.1自回歸模型與Ngram模型
5.3.2使用神經網絡實現Ngram模型
5.3.3端到端訓練
5.4自然語言理解與自然語言生成
5.4.1傳統NLU任務
5.4.2傳統NLG任務
5.4.3LLM時代的NLU與NLG任務
5.5本章小結
第6章LLM的核心結構: Transformer
6.1早期Seq2Seq模型
6.1.1遞歸神經網絡的變體
6.1.2案例: 利用LSTM進行股票價格預測
6.1.3EncoderDecoder架構
6.1.4在EncoderDecoder中引入註意力機制
6.1.5案例: 利用EncoderDecoder完成機器翻譯任務
6.2自註意力機制與Transformer
6.2.1自註意力機制
6.2.2基於自註意力的編碼器
6.2.3案例: 利用自註意力編碼器進行股票價格預測
6.2.4Transformer模型架構
6.2.5Transformer的訓練與推理
6.2.6案例: 利用Transformer完成機器翻譯任務
6.3本章小結
第7章BERT模型
7.1BERT模型架構和預訓練目標
7.1.1預訓練語言表征
7.1.2BERT模型架構
7.1.3BERT預訓練目標
7.2BERT模型的微調
7.2.1預訓練微調範式
7.2.2案例: BERT在分類任務上的微調
7.2.3案例: BERT在NLI任務上的微調
7.2.4案例: BERT在抽取式摘要任務上的微調
7.3BERT模型的實現結構
7.3.1Transformers項目結構
7.3.2BertForSequenceClassification模型結構
7.4本章小結
第8章GPT模型
8.1GPT模型架構和預訓練目標
8.1.1GPT模型架構
8.1.2GPT預訓練目標
8.1.3案例: 使用小規模語料庫模擬GPT預訓練過程
8.2GPT模型在NLU任務上的微調
8.2.1GPT預訓練模型的NLU下遊化
8.2.2案例: GPT在分類任務上的微調
8.2.3案例: GPT在NLI任務上的微調
8.3GPT模型在NLG任務上的微調
8.3.1GPT預訓練模型的NLG下遊化
8.3.2案例: GPT在生成式摘要任務上的微調
8.4解碼算法
8.4.1束搜索算法
8.4.2隨機采樣算法
8.5本章小結
第9章BART模型
9.1BART模型架構和預訓練目標
9.1.1BART模型架構
9.1.2BART預訓練目標
9.2BART模型在NLU任務上的微調
9.2.1BART預訓練模型的NLU下遊化
9.2.2案例: BART在分類任務上的微調
9.3BART模型在NLG任務上的微調
9.3.1BART預訓練模型的NLG下遊化
9.3.2案例: BART在生成式摘要任務上的微調
9.4BART模型的優越性與局限性
9.4.1BART模型的優越性
9.4.2BART模型的局限性
9.4.3LLM數據規模及任務的適配性
9.5本章小結
第10章現代LLM的萌芽: T5和GPT3
10.1T5模型
10.1.1T5模型的多任務預訓練
10.1.2T5模型的微調
10.1.3案例: T5模型在機器翻譯任務上的微調
10.2GPT3模型
10.2.1GPT3模型的預訓練
10.2.2GPT3的上下文學習能力
10.2.3案例: 利用上下文學習能力完成NLP任務
10.3NLP任務的新範式
10.4本章小結
第11章現代LLM的構建方法
11.1訓練LLM遵循人類指令
11.1.1指令微調
11.1.2模型量化與低秩適應
11.1.3案例: 對LLM進行QLoRA微調
11.2訓練LLM控制生成質量
11.2.1監督微調的局限性
11.2.2強化學習簡介
11.2.3自然語言生成的MDP建模
11.2.4RLHF: 利用強化學習進行偏好優化
11.2.5DPO: 直接偏好優化
11.2.6案例: LLM的偏好優化
11.3訓練LLM進行深度思考
11.3.1旅程式學習
11.3.2推理導向的訓練
11.4低成本LLM的相關技術
11.4.1混合專家模式
11.4.2鍵值緩存壓縮
11.5本章小結
第12章提示工程與模型上下文協議
12.1提示工程
12.1.1提示詞設計基本原則
12.1.2常見提示工程方法
12.1.3案例: 構建RAG應用
12.2模型上下文協議
12.2.1函數調用基本原理
12.2.2MCP基本原理
12.2.3案例: MCP服務器開發
12.3本章小結
參考文獻







