DeepSeek 大模型實戰指南 (架構部署與應用)
周濤 王卓 朱萬林
- 出版商: 化學工業
- 出版日期: 2025-05-01
- 售價: $534
- 語言: 簡體中文
- 頁數: 298
- ISBN: 7122475719
- ISBN-13: 9787122475718
-
相關分類:
Large language model
下單後立即進貨 (約4週~6週)
買這商品的人也買了...
-
Effective Debugging 中文版 | 軟體與系統除錯的 66 個具體作法 (Effective Debugging: 66 Specific Ways to Debug Software and Systems) (書況略舊,不介意在下單)$450$355 -
$504從0到1搭建自動化框架:原理、實現與工程實踐 -
徹底研究 C語言指標 (經典修復版) (Pointers on C)$980$764 -
Staff 工程師之路|獻給個人貢獻者成長與改變的導航指南 (The Staff Engineer's Path)$580$458 -
$458架構思維:從程序員到 CTO -
圖解資料結構 × 演算法:運用 C語言 (暢銷回饋版)$600$420 -
$453AI Agent 應用與項目實戰 -
$408AI全能助手 人人都能玩轉DeepSeek -
$305一本書玩轉 DeepSeek -
不止量化及 LORA - 原生 PyTorch 性能及記憶體優化精解$790$624 -
CYBERSEC 2025 臺灣資安年鑑─全球地緣政治衝突激化,國家級駭客鎖定企業$179$161 -
$611大模型輕量化:模型壓縮與訓練加速 -
$356DeepSeek + Dify + Ollama 全棧 AI 開發實戰 (前端本地部署到大模型集成訓練) -
$305DeepSeek 創作紅利 : 普通人全平臺 AI 內容變現實戰 -
$402每個人都需要一個 AI Agent — 從 DeepSeek 看超級智能 ASI -
AI 新個體:用 DeepSeek 重塑一人公司 (簽名版)$299$284 -
$714DeepSeek 源碼深度解析 -
軟體設計耦合的平衡之道:建構模組化軟體系統的通用設計原則 (Balancing Coupling in Software Design: Successful Software Architecture in General and Distributed Systems)$650$507 -
$453DeepSeek實戰:操作攻略與商業應用 -
AI Agent 開發:做與學 AutoGen 入門與進階$594$564 -
$305DeepSeek 超級個體:提示專家 + 職場高手 + 編程極客 -
生成式 AI x RAG x Hugging Face 提示工程打造數據採樣神技$980$774 -
OpenAI API 開發手冊 - 用 Responses API、Realtime API、MCP、Agents SDK、Function calling 打造即時語音、RAG、Agent 應用$790$624 -
跟 NVIDIA 學 LLM 基礎!GPT、Transformer、attention、self-attention 機制、seq2seq 架構,紮穩大型語言模型的深度學習建模技術 (《跟 NVIDIA 學深度學習》修訂版)$880$695 -
動手做 AI Agent:LLM 應用開發實戰力$650$487
LLM 大語言模型 詳見活動內容 »
-
78折
零基礎玩轉 LLM 應用全攻略:Python × No-Code 實作 AI 開發超簡單(iThome鐵人賽系列書)$690$538 -
79折
大型語言模型應用實戰:從 Prompt Engineering 到 Agentic RAG 與 MCP$790$624 -
78折
大模型時代:從 ChatGPT 一枝獨秀到全面開戰的 AI 賽局$500$390 -
79折
業界實戰親授 - 大型語言模型微調、最佳化、佈署一次到位$980$774 -
79折
深度學習最佳入門與專題實戰:自然語言處理、大型語言模型與強化學習篇$880$695 -
79折
AIGC 大型語言模型 - 個人應用到企業實戰立刻上手$780$616 -
79折
讓 LLM 飛起來的工具使用 - AI Agent MCP 協議開發、標準、應用$790$624 -
79折
AI Agent 手刻首選 - 使用 LangChain 親手實作 LLM 大型商業專案$880$695 -
79折
LLMOps 打造穩定運行的大型語言模型系統 (LLMOps: Managing Large Language Models in Production)$620$489 -
79折
實用 DeepSeek 技術 - 開發真正可用的 LLM 應用程式$880$695 -
78折
AI 程式設計、深度學習與 LLM 入門到精通:PyTorch × GPT × Transformer × LLaMA 實作指南(iThome鐵人賽系列書)$650$507 -
79折
LLM 工程師開發手冊 (LLM Engineer's Handbook: Master the art of engineering large language models from concept to production)$1,250$987 -
79折
AI Agent 智能工作流:設計與自動化全實戰$760$600 -
79折
不再是 ChatBot - 最新 AI Agent 代理建構$880$695 -
79折
最新 AI 開發範式 - Agent 多重智慧體自動產生應用$680$537 -
79折
LangChain 開發手冊 -- OpenAI × LCEL 表達式 × Agent 自動化流程 × RAG 擴展模型知識 × 圖形資料庫 × LangSmith 除錯工具$680$537 -
79折
LLM 提示工程技術|打造兼具藝術與科學的高效應用 (Prompt Engineering for LLMs: The Art and Science of Building Large Language Model-Based Applications)$620$489 -
79折
LLM 語意理解與生成技術完全開發 (Hands-On Large Language Models)$980$774 -
79折
LLM × 網路爬蟲終極實戰:n8n 串接資料爬取 × Qdrant × RAG 打造本機 AI Agent$980$774 -
79折
LangChain 學習手冊|使用 LangChain 與 LangGraph 建構 AI 與 LLM 應用程式 (Learning LangChain: Building AI and LLM Applications with LangChain and LangGraph)$680$537 -
79折
Node.js 與 LLM 原理與實務:AI 應用程式開發$780$616 -
79折
知道你的下一筆訂單 - 使用 LLM$980$774 -
79折
更少 GPU 卻更強 - LLM 輕量化壓縮及加速訓練$980$774 -
79折
AI Agent 自動化流程超 Easy -- 不寫程式 No Code 聰明完成樣樣事$750$592 -
VIP 95折
AI傳媒學:大模型助力傳媒行業應用與創新$588$558
商品描述
本書系統闡述了DeepSeek大模型架構、部署及應用實戰的相關內容。從人工智能和大模型的基礎理論出發,深入剖析了DeepSeek的底層技術,如Transformer架構、混合專家、動態任務分配、稀疏激活及歸一化等關鍵技術,並詳細介紹了模型訓練、優化和推理的前沿方法。書中不僅展示了DeepSeek在多模態模型和推理系統中的技術優勢,還提供了豐富的實戰案例,涵蓋了從本地部署到雲端應用,再到與辦公軟件、開發工具和Web交互系統的無縫集成。通過理論解析與實踐演示,讀者將獲得從模型設計到實際應用全流程的詳細指導。 本書非常適合人工智能領域的技術開發者、系統架構師,以及初探大模型應用的愛好者學習,也可用作高等院校相關專業的教材及參考書。
目錄大綱
第1章 人工智能和DeepSeek概述
1.1 人工智能
1.1.1 什麼是人工智能
1.1.2 人工智能的起源與發展歷程
1.2 大模型
1.2.1 大模型的原理和作用
1.2.2 大模型的興起與現狀
1.2.3 主流大模型介紹
1.3 DeepSeek
1.3.1 DeepSeek簡介
1.3.2 DeepSeek對人工智能市場的影響
1.3.3 DeepSeek的產品
1.3.4 DeepSeek的應用場景
1.3.5 DeepSeek與其他模型的技術對比
第2章 DeepSeek底層架構技術
2.1 Transformer架構技術
2.1.1 Transformer簡介
2.1.2 Transformer的核心組件
2.1.3 多頭註意力機制
2.1.4 多頭潛在註意力
2.2 動態任務分配
2.2.1 動態任務分配的特點和原理
2.2.2 動態任務分配的應用場景
2.3 稀疏激活機制
2.3.1 稀疏激活機制簡介
2.3.2 稀疏激活機制的實現方式
2.3.3 稀疏激活機制的應用領域
2.4 混合專家架構技術
2.4.1 混合專家架構簡介
2.4.2 MoE的特點
2.4.3 MoE的應用
2.4.4 DeepSeek中的MoE
2.5 歸一化技術
2.5.1 歸一化技術的必要性
2.5.2 LayerNorm技術
2.5.3 RMSNorm技術
2.6 模型訓練與優化技術
2.6.1 多令牌預測(MTP)技術
2.6.2 高效並行策略
2.6.3 混合精度訓練與量化策略
2.6.4 EMA顯存優化
2.6.5 頭尾參數共享
第3章 DeepSeekMoE架構
3.1 DeepSeekMoE架構簡介
3.1.1 背景
3.1.2 DeepSeekMoE架構策略
3.1.3 DeepSeekMoE與傳統MoE架構的區別
3.2 DeepSeekMoE架構詳解
3.2.1 細粒度專家細分
3.2.2 共享專家隔離
3.2.3 負載平衡
3.3 DeepSeekMoE的微調
3.3.1 DeepSeekMoE微調技術介紹
3.3.2 ZeRO優化
3.3.3 具體實現
3.4 性能評估
3.4.1 訓練數據和分詞
3.4.2 硬件基礎設施
3.4.3 設置超參數
3.4.4 評估基準
3.4.5 評估結果
3.4.6 和稠密模型的對比
3.4.7 DeepSeekMoE 2B模型測試
3.5 消融研究
3.5.1 消融研究介紹
3.5.2 消融研究在大模型中的應用
3.5.3 DeepSeekMoE的消融研究
3.6 DeepSeekMoE 16B測試
3.6.1 訓練數據和分詞
3.6.2 設置超參數
3.6.3 評估基準
3.7 DeepSeekMoE 16B的對齊
3.7.1 測試設置
3.7.2 評估結果
第4章 DeepSeek多模態大模型架構
4.1 DeepSeek多模態大模型的發展歷程
4.2 Janus模型架構
4.2.1 架構簡介
4.2.2 多模態理解
4.2.3 視覺生成路徑
4.2.4 自回歸Transformer
4.2.5 三階段訓練策略(Three-Stage Training Procedure)
4.2.6 Janus模型的推理與擴展性
4.3 Janus-Pro架構
4.3.1 解耦視覺編碼
4.3.2 訓練策略
4.3.3 優化訓練策略
4.3.4 數據擴展策略
4.3.5 模型規模擴展
4.4 JanusFlow架構
4.4.1 實現多模態模型
4.4.2 結合自回歸語言模型與Rectified Flow
4.4.3 採用任務解耦的編碼器 (Decoupled Encoder Design)
4.4.4 U-ViT模型
4.4.5 三階段訓練策略
4.4.6 實驗結果
4.5 DeepSeek-VL2多模態視覺模型
4.5.1 模型架構
4.5.2 技術創新與亮點
4.5.3 模型訓練
4.5.4 和Janus項目的對比
第5章 DeepSeek推理模型架構
5.1 背景
5.2 DeepSeek-R1模型簡介
5.2.1 DeepSeek-R1模型演進
5.2.2 DeepSeek-R1模型的基本架構
5.2.3 訓練方案
5.2.4 開源信息
5.3 推理模型的相關技術
5.3.1 混合專家(MoE)架構
5.3.2 多頭潛在註意力
5.3.3 強化學習
5.4 DeepSeek-R1-Zero訓練方案
5.4.1 強化學習算法
5.4.2 獎勵建模
5.4.3 訓練模板
5.4.4 DeepSeek-R1-Zero的自我進化過程
5.4.5 在DeepSeek-R1-Zero的“頓悟時刻”
5.4.6 DeepSeek-R1-Zero性能測試
5.5 DeepSeek-R1訓練方案
5.5.1 冷啟動
5.5.2 推理導向的強化學習
5.5.3 拒絕採樣和監督微調
5.5.4 全場景強化學習
5.6 蒸餾處理
5.6.1 AI大模型中的蒸餾處理
5.6.2 基礎模型的選擇與蒸餾過程
5.6.3 模型蒸餾的技術原理
5.6.4 評估蒸餾模型
5.6.5 小結
第6章 DeepSeek模型的本地部署
6.1 本地部署的優勢與常見挑戰
6.2 Ollama本地部署
6.2.1 安裝Ollama
6.2.2 DeepSeek模型的安裝與配置
6.2.3 基於本地DeepSeek模型的對話程序
6.3 LM Studio本地可視化部署
6.3.1 LM Studio的特點與安裝
6.3.2 安裝並配置DeepSeek模型
6.3.3 LM Studio API
6.3.4 使用Dify調用LM Studio模型
6.4 Chatbox本地部署
6.
