大模型算法 (強化學習微調與對齊)
餘昌葉
- 出版商: 電子工業
- 出版日期: 2025-04-07
- 售價: $654
- 貴賓價: 9.5 折 $621
- 語言: 簡體中文
- 頁數: 230
- ISBN: 7121500728
- ISBN-13: 9787121500725
-
相關分類:
Large language model
立即出貨
買這商品的人也買了...
-
$611智慧光網絡 關鍵技術應用實踐和未來演進 -
不只是 CUDA,通用 GPU 程式模型及架構原理$780$616 -
CPU 眼裡的 C/C++$534$507 -
科技巨頭的演算法大揭祕:資料科學家必讀的資料科學與機器學習實戰筆記(iThome鐵人賽系列書)【軟精裝】$680$530 -
萬顆 GPU 的訓練 - 分散式機器學習 — 系統工程與實戰$1,280$1,011 -
$509基於 GPT-3、ChatGPT、GPT-4 等 Transformer 架構的自然語言處理 -
開關電源設計, 3/e (Switching Power Supply Design, 3/e)$1,368$1,299 -
內行人才知道的機器學習系統設計面試指南 (Machine Learning System Design Interview)$680$510 -
光纖通信系統, 4/e$414$393 -
新一代人工智能:從深度學習到大模型$534$507 -
內行人才知道的系統設計面試指南 第二輯 (System Design Interview – An Insider's Guide: Volume 2)$820$647 -
大模型項目實戰:Agent 開發與應用$534$507 -
$504從零構建大模型:算法、訓練與微調 -
語音與音樂信號處理輕鬆入門 (基於 Python 與 PyTorch)$414$393 -
強化學習基礎、原理與應用$594$564 -
$408AI 訓練師手冊 : 數據標註 + 分析整理 + 算法優化 + 模型訓練 -
大語言模型原理、微調與 Agent 開發$594$564 -
本地端 Ollama × LangChain × LangGraph × LangSmith 開發手冊:打造 RAG、Agent、SQL 應用$750$592 -
LangGraph 實戰開發 AI Agent 全攻略:掌握 AI 模型 × 工作流程 × 設計應用,從零打造智慧分工多代理協作系統(iThome鐵人賽系列書)$660$514 -
Ollama 本地 AI 全方位攻略:命令列功能、五大主題測試、RAG、Vibe Coding、MCP,一本搞定所有實戰應用$750$592 -
ROS2 機器人操作系統與 Gazebo 機器人仿真 (微課視頻版)$534$507 -
Transformer原理解析及中文項目實踐(微課視頻版)$414$393 -
$564AI Agent 應用開發:構建多智能體協同系統 -
內行人才知道的生成式 AI 系統設計面試指南 (Generative AI System Design Interview)$750$592 -
LLMOps 打造穩定運行的大型語言模型系統 (LLMOps: Managing Large Language Models in Production)$620$489
LLM 大語言模型 詳見活動內容 »
-
78折
零基礎玩轉 LLM 應用全攻略:Python × No-Code 實作 AI 開發超簡單(iThome鐵人賽系列書)$690$538 -
79折
大型語言模型應用實戰:從 Prompt Engineering 到 Agentic RAG 與 MCP$790$624 -
78折
大模型時代:從 ChatGPT 一枝獨秀到全面開戰的 AI 賽局$500$390 -
79折
業界實戰親授 - 大型語言模型微調、最佳化、佈署一次到位$980$774 -
79折
深度學習最佳入門與專題實戰:自然語言處理、大型語言模型與強化學習篇$880$695 -
79折
AIGC 大型語言模型 - 個人應用到企業實戰立刻上手$780$616 -
79折
讓 LLM 飛起來的工具使用 - AI Agent MCP 協議開發、標準、應用$790$624 -
79折
AI Agent 手刻首選 - 使用 LangChain 親手實作 LLM 大型商業專案$880$695 -
79折
LLMOps 打造穩定運行的大型語言模型系統 (LLMOps: Managing Large Language Models in Production)$620$489 -
79折
實用 DeepSeek 技術 - 開發真正可用的 LLM 應用程式$880$695 -
78折
AI 程式設計、深度學習與 LLM 入門到精通:PyTorch × GPT × Transformer × LLaMA 實作指南(iThome鐵人賽系列書)$650$507 -
79折
LLM 工程師開發手冊 (LLM Engineer's Handbook: Master the art of engineering large language models from concept to production)$1,250$987 -
79折
AI Agent 智能工作流:設計與自動化全實戰$760$600 -
79折
不再是 ChatBot - 最新 AI Agent 代理建構$880$695 -
79折
最新 AI 開發範式 - Agent 多重智慧體自動產生應用$680$537 -
79折
LangChain 開發手冊 -- OpenAI × LCEL 表達式 × Agent 自動化流程 × RAG 擴展模型知識 × 圖形資料庫 × LangSmith 除錯工具$680$537 -
79折
LLM 提示工程技術|打造兼具藝術與科學的高效應用 (Prompt Engineering for LLMs: The Art and Science of Building Large Language Model-Based Applications)$620$489 -
79折
LLM 語意理解與生成技術完全開發 (Hands-On Large Language Models)$980$774 -
79折
LLM × 網路爬蟲終極實戰:n8n 串接資料爬取 × Qdrant × RAG 打造本機 AI Agent$980$774 -
79折
LangChain 學習手冊|使用 LangChain 與 LangGraph 建構 AI 與 LLM 應用程式 (Learning LangChain: Building AI and LLM Applications with LangChain and LangGraph)$680$537 -
79折
Node.js 與 LLM 原理與實務:AI 應用程式開發$780$616 -
79折
知道你的下一筆訂單 - 使用 LLM$980$774 -
79折
更少 GPU 卻更強 - LLM 輕量化壓縮及加速訓練$980$774 -
79折
AI Agent 自動化流程超 Easy -- 不寫程式 No Code 聰明完成樣樣事$750$592 -
VIP 95折
AI傳媒學:大模型助力傳媒行業應用與創新$588$558
商品描述
本書系統地講解了大模型技術、訓練算法(包括強化學習、RLHF、DPO、SFT 與蒸餾等)、效果優化及其實踐。全書以大語言模型為核心,內容廣泛且深入,絕大部分內容適用於視覺語言模型和多模態大語言模型。 本書適合AI 算法與工程領域的從業者,相關專業的學生,希望深入瞭解大模型技術、擁抱AI 與大模型浪潮的讀者閱讀。
作者簡介
餘昌葉,資深算法工程師,哈爾濱工業大學優秀畢業生。曾就職於騰訊等多家一線因特網企業,擁有十年行業經驗。主要研究方向為大模型、強化學習、推薦系統及圖像處理。具備紮實的數學功底與深厚的算法理論基礎,主導並完成多項核心技術項目的工程化落地。已獲六項國家發明專利,曾榮獲科研類全國航空航天模型錦標賽亞軍等專業獎項,以及騰訊卓越研發獎(團隊)、騰訊知識獎等多項企業級榮譽。
目錄大綱
第1章 大模型原理與技術概要
1.1 圖解大模型結構
1.1.1 大語言模型(LLM)結構全景圖
1.1.2 輸入層:分詞、Token映射與向量生成
1.1.3 輸出層:Logits、概率分佈與解碼
1.1.4 多模態語言模型(MLLM、VLM)
1.2 大模型訓練全景圖
1.3 Scaling Law(性能的四大擴展規律)
第2章 SFT(監督微調)
2.1 多種微調技術圖解
2.1.1 全參數微調、部分參數微調
2.1.2 LoRA(低秩適配微調)——四兩撥千斤
2.1.3 LoRA衍生:QLoRA、AdaLoRA、PiSSA等
2.1.4 基於提示的微調:Prefix-Tuning等
2.1.5 Adapter Tuning
2.1.6 微調技術對比
2.1.7 如何選擇微調技術
2.2 SFT原理深入解析
2.2.1 SFT數據與ChatML格式化
2.2.2 Logits與Token概率計算
2.2.3 SFT的Label
2.2.4 SFT的Loss圖解
2.2.5 對數概率(LogProbs)與LogSoftmax
2.3 指令收集和處理
2.3.1 收集指令的渠道和方法
2.3.2 清洗指令的四要素
2.3.3 數據預處理及常用工具
2.4 SFT實踐指南
2.4.1 如何緩解SFT引入的幻覺?
2.4.2 Token級Batch Size的換算
2.4.3 Batch Size與學習率的Scaling Law
2.4.4 SFT的七個技巧
第3章 DPO(直接偏好優化)
3.1 DPO的核心思想
3.1.1 DPO的提出背景與意義
3.1.2 隱式的獎勵模型
3.1.3 Loss和優化目標
3.2 偏好數據集的構建
3.2.1 構建流程總覽
3.2.2 Prompt的收集
3.2.3 問答數據對的清洗
3.2.4 封裝和預處理
3.3 圖解DPO的實現與訓練
3.3.1 模型的初始化
3.3.2 DPO訓練全景圖
3.3.3 DPO核心代碼的提煉和解讀
3.4 DPO實踐經驗
3.4.1 β參數如何調節
3.4.2 DPO對模型能力的多維度影響
3.5 DPO進階
3.5.1 DPO和RLHF(PPO)的對比
3.5.2 理解DPO的梯度
第4章 免訓練的效果優化技術
4.1 提示工程
4.1.1 Zero-Shot、One-Shot、Few-Shot
4.1.2 Prompt設計的原則
4.2 CoT(思維鏈)
4.2.1 CoT原理圖解
4.2.2 ToT、GoT、XoT等衍生方法
4.2.3 CoT的應用技巧
4.2.4 CoT在多模態領域的應用
4.3 生成控制和解碼策略
4.3.1 解碼的原理與分類
4.3.2 貪婪搜索
4.3.3 Beam Search(波束搜索):圖解、衍生
4.3.4 Top-K、Top-P等採樣方法圖解
4.3.5 其他解碼策略
4.3.6 多種生成控制參數
4.4 RAG(檢索增強生成)
4.4.1 RAG技術全景圖
4.4.2 RAG相關框架
4.5 功能與工具調用(Function Calling)
4.5.1 功能調用全景圖
4.5.2 功能調用的分類
第5章 強化學習基礎
5.1 強化學習核心
5.1.1 強化學習:定義與區分
5.1.2 強化學習的基礎架構、核心概念
5.1.3 馬爾可夫決策過程(MDP)
5.1.4 探索與利用、ε-貪婪策略
5.1.5 On-policy和Off-policy
5.1.6 在線/離線強化學習(Online/Offline RL)
5.1.7 強化學習分類圖
5.2 價值函數、回報預估
5.2.1 獎勵、回報、折扣因子(R、G、γ)
5.2.2 反向計算回報
5.2.3 四種價值函數:Qπ、Vπ、V*、Q*
5.2.4 獎勵、回報、價值的區別
5.2.5 貝爾曼方程——強化學習的基石
5.2.6 Q和V的轉換關系、轉換圖
5.2.7 蒙特卡洛方法(MC)
5.3 時序差分(TD)
5.3.1 時序差分方法
5.3.2 TD-Target和TD-Error
5.3.3 TD(λ)、多步TD
5.3.4 蒙特卡洛、TD、DP、窮舉搜索的區別
5.4 基於價值的算法
5.4.1 Q-learning算法
5.4.2 DQN
5.4.3 DQN的Loss、訓練過程
5.4.4 DDQN、Dueling DQN等衍生算法
5.5 策略梯度算法
5.5.1 策略梯度(Policy Gradient)
5.5.2 策略梯度定理
5.5.3 REINFORCE和Actor-Critic
5.6 多智能體強化學習(MARL)
5.6.1 MARL的原理與架構
5.6.2 MARL的建模
5.6.3 MARL的典型算法
5.7 模仿學習(IL)
5.7.1 模仿學習的定義、分類
5.7.2 行為克隆(BC)
5.7.3 逆向強化學習(IRL)
5.7.4 生成對抗模仿學習(GAIL)
5.8 強化學習高級拓展
5.8.1 基於環境模型(Model-Based)的方法
5.8.2 分層強化學習(HRL)
5.8.3 分佈價值強化學習(Distributional RL)
第6章 策略優化算法
6.1 Actor-Critic(演員-評委)架構
6.1.1 從策略梯度到Actor-Critic
6.1.2 Actor-Critic架構圖解
6.2 優勢函數與A2C
6.2.1 優勢函數(Advantage)
6.2.2 A2C、A3C、SAC算法
6.2.3 GAE(廣義優勢估計)算法
6.2.4 γ和λ的調節作用
6.3 PPO及其相關算法
6.3.1 PPO算法的演進
6.
