大模型算法(強化學習微調與對齊)

餘昌葉

商品描述

本書系統地講解了大模型技術、訓練算法(包括強化學習、RLHF、DPO、SFT 與蒸餾等)、效果優化及其實踐。全書以大語言模型為核心,內容廣泛且深入,絕大部分內容適用於視覺語言模型和多模態大語言模型。 本書適合AI 算法與工程領域的從業者,相關專業的學生,希望深入瞭解大模型技術、擁抱AI 與大模型浪潮的讀者閱讀。

作者簡介

餘昌葉,資深算法工程師,哈爾濱工業大學優秀畢業生。曾就職於騰訊等多家一線因特網企業,擁有十年行業經驗。主要研究方向為大模型、強化學習、推薦系統及圖像處理。具備紮實的數學功底與深厚的算法理論基礎,主導並完成多項核心技術項目的工程化落地。已獲六項國家發明專利,曾榮獲科研類全國航空航天模型錦標賽亞軍等專業獎項,以及騰訊卓越研發獎(團隊)、騰訊知識獎等多項企業級榮譽。

目錄大綱

第1章 大模型原理與技術概要
1.1 圖解大模型結構
1.1.1 大語言模型(LLM)結構全景圖
1.1.2 輸入層:分詞、Token映射與向量生成
1.1.3 輸出層:Logits、概率分佈與解碼
1.1.4 多模態語言模型(MLLM、VLM)
1.2 大模型訓練全景圖
1.3 Scaling Law(性能的四大擴展規律)
第2章 SFT(監督微調)
2.1 多種微調技術圖解
2.1.1 全參數微調、部分參數微調
2.1.2 LoRA(低秩適配微調)——四兩撥千斤
2.1.3 LoRA衍生:QLoRA、AdaLoRA、PiSSA等
2.1.4 基於提示的微調:Prefix-Tuning等
2.1.5 Adapter Tuning
2.1.6 微調技術對比
2.1.7 如何選擇微調技術
2.2 SFT原理深入解析
2.2.1 SFT數據與ChatML格式化
2.2.2 Logits與Token概率計算
2.2.3 SFT的Label
2.2.4 SFT的Loss圖解
2.2.5 對數概率(LogProbs)與LogSoftmax
2.3 指令收集和處理
2.3.1 收集指令的渠道和方法
2.3.2 清洗指令的四要素
2.3.3 數據預處理及常用工具
2.4 SFT實踐指南
2.4.1 如何緩解SFT引入的幻覺?
2.4.2 Token級Batch Size的換算
2.4.3 Batch Size與學習率的Scaling Law
2.4.4 SFT的七個技巧
第3章 DPO(直接偏好優化)
3.1 DPO的核心思想
3.1.1 DPO的提出背景與意義
3.1.2 隱式的獎勵模型
3.1.3 Loss和優化目標
3.2 偏好數據集的構建
3.2.1 構建流程總覽
3.2.2 Prompt的收集
3.2.3 問答數據對的清洗
3.2.4 封裝和預處理
3.3 圖解DPO的實現與訓練
3.3.1 模型的初始化
3.3.2 DPO訓練全景圖
3.3.3 DPO核心代碼的提煉和解讀
3.4 DPO實踐經驗
3.4.1 β參數如何調節
3.4.2 DPO對模型能力的多維度影響
3.5 DPO進階
3.5.1 DPO和RLHF(PPO)的對比
3.5.2 理解DPO的梯度
第4章 免訓練的效果優化技術
4.1 提示工程
4.1.1 Zero-Shot、One-Shot、Few-Shot
4.1.2 Prompt設計的原則
4.2 CoT(思維鏈)
4.2.1 CoT原理圖解
4.2.2 ToT、GoT、XoT等衍生方法
4.2.3 CoT的應用技巧
4.2.4 CoT在多模態領域的應用
4.3 生成控制和解碼策略
4.3.1 解碼的原理與分類
4.3.2 貪婪搜索
4.3.3 Beam Search(波束搜索):圖解、衍生
4.3.4 Top-K、Top-P等採樣方法圖解
4.3.5 其他解碼策略
4.3.6 多種生成控制參數
4.4 RAG(檢索增強生成)
4.4.1 RAG技術全景圖
4.4.2 RAG相關框架
4.5 功能與工具調用(Function Calling)
4.5.1 功能調用全景圖
4.5.2 功能調用的分類
第5章 強化學習基礎
5.1 強化學習核心
5.1.1 強化學習:定義與區分
5.1.2 強化學習的基礎架構、核心概念
5.1.3 馬爾可夫決策過程(MDP)
5.1.4 探索與利用、ε-貪婪策略
5.1.5 On-policy和Off-policy
5.1.6 在線/離線強化學習(Online/Offline RL)
5.1.7 強化學習分類圖
5.2 價值函數、回報預估
5.2.1 獎勵、回報、折扣因子(R、G、γ)
5.2.2 反向計算回報
5.2.3 四種價值函數:Qπ、Vπ、V*、Q*
5.2.4 獎勵、回報、價值的區別
5.2.5 貝爾曼方程——強化學習的基石
5.2.6 Q和V的轉換關系、轉換圖
5.2.7 蒙特卡洛方法(MC)
5.3 時序差分(TD)
5.3.1 時序差分方法
5.3.2 TD-Target和TD-Error
5.3.3 TD(λ)、多步TD
5.3.4 蒙特卡洛、TD、DP、窮舉搜索的區別
5.4 基於價值的算法
5.4.1 Q-learning算法
5.4.2 DQN
5.4.3 DQN的Loss、訓練過程
5.4.4 DDQN、Dueling DQN等衍生算法
5.5 策略梯度算法
5.5.1 策略梯度(Policy Gradient)
5.5.2 策略梯度定理
5.5.3 REINFORCE和Actor-Critic
5.6 多智能體強化學習(MARL)
5.6.1 MARL的原理與架構
5.6.2 MARL的建模
5.6.3 MARL的典型算法
5.7 模仿學習(IL)
5.7.1 模仿學習的定義、分類
5.7.2 行為克隆(BC)
5.7.3 逆向強化學習(IRL)
5.7.4 生成對抗模仿學習(GAIL)
5.8 強化學習高級拓展
5.8.1 基於環境模型(Model-Based)的方法
5.8.2 分層強化學習(HRL)
5.8.3 分佈價值強化學習(Distributional RL)
第6章 策略優化算法
6.1 Actor-Critic(演員-評委)架構
6.1.1 從策略梯度到Actor-Critic
6.1.2 Actor-Critic架構圖解
6.2 優勢函數與A2C
6.2.1 優勢函數(Advantage)
6.2.2 A2C、A3C、SAC算法
6.2.3 GAE(廣義優勢估計)算法
6.2.4 γ和λ的調節作用
6.3 PPO及其相關算法
6.3.1 PPO算法的演進
6.

最後瀏覽商品 (20)