艾博士:深入淺出大語言模型
馬少平
- 出版商: 清華大學
- 出版日期: 2026-05-01
- 售價: $414
- 語言: 簡體中文
- ISBN: 7302713634
- ISBN-13: 9787302713630
-
相關分類:
Large language model
下單後立即進貨 (約4週~6週)
商品描述
"本書設計了博學的艾博士和好學的小明兩個人物,以師徒二人對話的方式,由淺入深地講解大語言模型相關內容的基本原理,講解詳細,通俗易懂,給讀者以在教室上課的真實感。本書首先對大語言模型中用到的數學基礎做了簡要介紹,以方便讀者學習; 其次對神經網絡與深度學習進行了詳細講解,這對於後續學習和理解大語言模型很有幫助; 再次詳細講解Transformer架構; 最後深入講解GPT、BERT等具體的模型,以及強化學習方法、PPO算法和基於人類反饋的強化學習方法等。 本書適合於對大語言模型感興趣的初學者、從事人工智能相關研發的工程技術人員,以及講授相關課程的教師閱讀。 "
目錄大綱
目錄
第1章什麼是大語言模型
1.1大語言模型簡介
1.2大語言模型應用
1.3總結
第2章預備知識
2.1矩陣和向量的基礎知識
2.1.1矩陣
2.1.2向量
2.2數學期望與方差
2.3馬爾可夫過程
2.4總結
第3章神經元與神經網絡
3.1從數字識別談起
3.2神經元
3.3神經網絡
3.4反向傳播算法
3.5卷積神經網絡
3.6殘差神經網絡
3.7詞向量
3.7.1詞的向量表示
3.7.2神經網絡語言模型
3.7.3word2vec模型
3.8循環神經網絡
3.9長短期記憶網絡
3.10總結
第4章Transformer模型
4.1序列到序列問題
4.2註意力機制
4.2.1什麼是註意力機制
4.2.2自註意力機制
4.2.3多頭註意力機制
4.3殘差連接
4.4層歸一化
4.5Transformer模型
4.5.1Transformer模型的編碼器
4.5.2Transformer模型的解碼器
4.5.3Transformer模型的訓練
4.5.4位置編碼
4.5.5層歸一化的位置
4.5.6詞元化方法
4.6總結
第5章GPT模型
5.1預訓練模型
5.2GPT1模型
5.2.1GPT1模型的基本構成
5.2.2GPT1預訓練過程
5.2.3GPT1微調過程
5.2.4GPT1模型的應用
5.2.5GPT1性能分析
5.3GPT2模型
5.3.1GPT2模型的基本構成
5.3.2GPT2 性能評價
5.4GPT3模型
5.4.1GPT3模型的基本構成
5.4.2數據集
5.4.3語境學習
5.4.4語境學習性能評價
5.5ChatGPT模型
5.6總結
第6章BERT模型
6.1BERT模型架構
6.2BERT模型的輸入
6.3BERT模型的預訓練方法
6.3.1MLM方法
6.3.2NSP方法
6.4BERT模型的微調方法
6.4.1句對分類任務
6.4.2單句分類任務
6.4.3文本問答任務
6.4.4單句標註任務
6.5總結
第7章強化學習方法
7.1什麼是強化學習
7.2策略梯度方法
7.3演員評論家方法
7.3.1策略梯度方法存在的問題
7.3.2優勢函數
7.3.3演員評論家方法的實現
7.3.4廣義優勢估計
7.3.5評論家模型
7.4基於異策略的演員評論家方法
7.4.1重要性采樣
7.4.2近端策略優化算法
7.5總結
第8章基於人類反饋的強化學習方法
8.1學習如何回答問題
8.2學習人類偏好
8.3按人類偏好優化模型
8.4總結
第9章大語言模型的應用: 提示工程
9.1應用準備
9.2提示詞寫作指南
9.3大語言模型應用舉例
9.4DeepSeek使用簡介
9.5總結



