大模型算法 (強化學習微調與對齊)

餘昌葉

出版商: 電子工業
出版日期: 2025-04-07
售價: $654
語言: 簡體中文
頁數: 230
ISBN: 7121500728
ISBN-13: 9787121500725
相關分類: LangChain、Reinforcement、化學 Chemistry

下單後立即進貨 (約4週~6週)

買這商品的人也買了...

$450

統計強化學習：現代機器學習方法 (Statistical Reinforcement Learning: Modern Machine Learning Approaches)
$250

機器學習線性代數基礎 (Python 語言描述)
$564

深度強化學習：學術前沿與實戰應用
$374

機器學習中的概率統計：Python 語言描述
$469

神經網絡與深度學習案例與實踐
~~$1,200~~ $948

流暢的 Python｜清晰、簡潔、高效的程式設計, 2/e (Fluent Python: Clear, Concise, and Effective Programming, 2/e)
~~$474~~ $450

控制之美 (捲2) - 最優化控制 MPC 與卡爾曼濾波器
$454

從零開始大模型開發與微調：基於 PyTorch 與 ChatGLM
$556

大規模語言模型：從理論到實踐
$465

ChatGLM3 大模型本地化部署、應用開發與微調
~~$834~~ $792

強化學習與最優控制
~~$599~~ $569

CPython 設計與實現
$1,190

深度學習精粹與 PyTorch 實踐
~~$834~~ $792

算法設計與分析基礎, 3/e (詳解版)
$708

強化學習的數學原理 (英文版)
~~$390~~ $371

機器人基礎與數字孿生系統
~~$474~~ $450

優化理論與算法基礎
~~$654~~ $621

設計深度學習系統
~~$534~~ $507

大模型項目實戰：Agent 開發與應用
$588

企業 AIGC 進化論 : 如何用生成式人工智能實現企業效率革命
~~$294~~ $279

Meta Learning 學習者手記
~~$894~~ $849

控制系統與強化學習
~~$594~~ $564

強化學習基礎、原理與應用
~~$648~~ $616

強化學習的數學原理
$534

大模型驅動的具身智能架構,設計與實現

商品描述

本書系統地講解了大模型技術、訓練算法（包括強化學習、RLHF、DPO、SFT 與蒸餾等）、效果優化及其實踐。全書以大語言模型為核心，內容廣泛且深入，絕大部分內容適用於視覺語言模型和多模態大語言模型。本書適合AI 算法與工程領域的從業者，相關專業的學生，希望深入瞭解大模型技術、擁抱AI 與大模型浪潮的讀者閱讀。

作者簡介

餘昌葉，資深算法工程師，哈爾濱工業大學優秀畢業生。曾就職於騰訊等多家一線因特網企業，擁有十年行業經驗。主要研究方向為大模型、強化學習、推薦系統及圖像處理。具備紮實的數學功底與深厚的算法理論基礎，主導並完成多項核心技術項目的工程化落地。已獲六項國家發明專利，曾榮獲科研類全國航空航天模型錦標賽亞軍等專業獎項，以及騰訊卓越研發獎（團隊）、騰訊知識獎等多項企業級榮譽。

目錄大綱

第1章大模型原理與技術概要
1.1 圖解大模型結構
1.1.1 大語言模型（LLM）結構全景圖
1.1.2 輸入層：分詞、Token映射與向量生成
1.1.3 輸出層：Logits、概率分佈與解碼
1.1.4 多模態語言模型（MLLM、VLM）
1.2 大模型訓練全景圖
1.3 Scaling Law（性能的四大擴展規律）
第2章 SFT（監督微調）
2.1 多種微調技術圖解
2.1.1 全參數微調、部分參數微調
2.1.2 LoRA（低秩適配微調）——四兩撥千斤
2.1.3 LoRA衍生：QLoRA、AdaLoRA、PiSSA等
2.1.4 基於提示的微調：Prefix-Tuning等
2.1.5 Adapter Tuning
2.1.6 微調技術對比
2.1.7 如何選擇微調技術
2.2 SFT原理深入解析
2.2.1 SFT數據與ChatML格式化
2.2.2 Logits與Token概率計算
2.2.3 SFT的Label
2.2.4 SFT的Loss圖解
2.2.5 對數概率（LogProbs）與LogSoftmax
2.3 指令收集和處理
2.3.1 收集指令的渠道和方法
2.3.2 清洗指令的四要素
2.3.3 數據預處理及常用工具
2.4 SFT實踐指南
2.4.1 如何緩解SFT引入的幻覺？
2.4.2 Token級Batch Size的換算
2.4.3 Batch Size與學習率的Scaling Law
2.4.4 SFT的七個技巧
第3章 DPO（直接偏好優化）
3.1 DPO的核心思想
3.1.1 DPO的提出背景與意義
3.1.2 隱式的獎勵模型
3.1.3 Loss和優化目標
3.2 偏好數據集的構建
3.2.1 構建流程總覽
3.2.2 Prompt的收集
3.2.3 問答數據對的清洗
3.2.4 封裝和預處理
3.3 圖解DPO的實現與訓練
3.3.1 模型的初始化
3.3.2 DPO訓練全景圖
3.3.3 DPO核心代碼的提煉和解讀
3.4 DPO實踐經驗
3.4.1 β參數如何調節
3.4.2 DPO對模型能力的多維度影響
3.5 DPO進階
3.5.1 DPO和RLHF（PPO）的對比
3.5.2 理解DPO的梯度
第4章免訓練的效果優化技術
4.1 提示工程
4.1.1 Zero-Shot、One-Shot、Few-Shot
4.1.2 Prompt設計的原則
4.2 CoT（思維鏈）
4.2.1 CoT原理圖解
4.2.2 ToT、GoT、XoT等衍生方法
4.2.3 CoT的應用技巧
4.2.4 CoT在多模態領域的應用
4.3 生成控制和解碼策略
4.3.1 解碼的原理與分類
4.3.2 貪婪搜索
4.3.3 Beam Search（波束搜索）：圖解、衍生
4.3.4 Top-K、Top-P等採樣方法圖解
4.3.5 其他解碼策略
4.3.6 多種生成控制參數
4.4 RAG（檢索增強生成）
4.4.1 RAG技術全景圖
4.4.2 RAG相關框架
4.5 功能與工具調用（Function Calling）
4.5.1 功能調用全景圖
4.5.2 功能調用的分類
第5章強化學習基礎
5.1 強化學習核心
5.1.1 強化學習：定義與區分
5.1.2 強化學習的基礎架構、核心概念
5.1.3 馬爾可夫決策過程（MDP）
5.1.4 探索與利用、ε-貪婪策略
5.1.5 On-policy和Off-policy
5.1.6 在線/離線強化學習（Online/Offline RL）
5.1.7 強化學習分類圖
5.2 價值函數、回報預估
5.2.1 獎勵、回報、折扣因子（R、G、γ）
5.2.2 反向計算回報
5.2.3 四種價值函數：Qπ、Vπ、V*、Q*
5.2.4 獎勵、回報、價值的區別
5.2.5 貝爾曼方程——強化學習的基石
5.2.6 Q和V的轉換關系、轉換圖
5.2.7 蒙特卡洛方法（MC）
5.3 時序差分（TD）
5.3.1 時序差分方法
5.3.2 TD-Target和TD-Error
5.3.3 TD(λ)、多步TD
5.3.4 蒙特卡洛、TD、DP、窮舉搜索的區別
5.4 基於價值的算法
5.4.1 Q-learning算法
5.4.2 DQN
5.4.3 DQN的Loss、訓練過程
5.4.4 DDQN、Dueling DQN等衍生算法
5.5 策略梯度算法
5.5.1 策略梯度（Policy Gradient）
5.5.2 策略梯度定理
5.5.3 REINFORCE和Actor-Critic
5.6 多智能體強化學習（MARL）
5.6.1 MARL的原理與架構
5.6.2 MARL的建模
5.6.3 MARL的典型算法
5.7 模仿學習（IL）
5.7.1 模仿學習的定義、分類
5.7.2 行為克隆（BC）
5.7.3 逆向強化學習（IRL）
5.7.4 生成對抗模仿學習（GAIL）
5.8 強化學習高級拓展
5.8.1 基於環境模型（Model-Based）的方法
5.8.2 分層強化學習（HRL）
5.8.3 分佈價值強化學習（Distributional RL）
第6章策略優化算法
6.1 Actor-Critic（演員-評委）架構
6.1.1 從策略梯度到Actor-Critic
6.1.2 Actor-Critic架構圖解
6.2 優勢函數與A2C
6.2.1 優勢函數（Advantage）
6.2.2 A2C、A3C、SAC算法
6.2.3 GAE（廣義優勢估計）算法
6.2.4 γ和λ的調節作用
6.3 PPO及其相關算法
6.3.1 PPO算法的演進
6.

大模型算法 (強化學習微調與對齊)

餘昌葉

買這商品的人也買了...

相關主題

商品描述

作者簡介

目錄大綱

類似商品

最後瀏覽商品 (2)