DeepSeek 大模型實戰指南 (架構部署與應用)

周濤王卓朱萬林

出版商: 化學工業
出版日期: 2025-05-01
售價: $534
語言: 簡體中文
頁數: 298
ISBN: 7122475719
ISBN-13: 9787122475718
相關分類: Large language model

下單後立即進貨 (約4週~6週)

買這商品的人也買了...

~~$450~~ $382

Effective Debugging 中文版 | 軟體與系統除錯的 66 個具體作法 (Effective Debugging: 66 Specific Ways to Debug Software and Systems) (書況略舊,不介意在下單)
$504

從0到1搭建自動化框架：原理、實現與工程實踐
~~$980~~ $735

徹底研究 C語言指標 (經典修復版) (Pointers on C)
~~$580~~ $458

Staff 工程師之路｜獻給個人貢獻者成長與改變的導航指南 (The Staff Engineer's Path)
$458

架構思維：從程序員到 CTO
~~$600~~ $300

圖解資料結構 × 演算法：運用 C語言 (暢銷回饋版)
$421

AI Agent 應用與項目實戰
~~$480~~ $456

AI全能助手人人都能玩轉DeepSeek
$305

一本書玩轉 DeepSeek
~~$790~~ $624

不止量化及 LORA - 原生 PyTorch 性能及記憶體優化精解
~~$179~~ $161

CYBERSEC 2025 臺灣資安年鑑 ─ 全球地緣政治衝突激化，國家級駭客鎖定企業
$611

大模型輕量化：模型壓縮與訓練加速
$474

DeepSeek + Dify + Ollama 全棧 AI 開發實戰 (前端本地部署到大模型集成訓練)
$305

DeepSeek 創作紅利 : 普通人全平臺 AI 內容變現實戰
$402

每個人都需要一個 AI Agent — 從 DeepSeek 看超級智能 ASI
~~$299~~ $284

AI 新個體：用 DeepSeek 重塑一人公司 (簽名版)
$714

DeepSeek 源碼深度解析
~~$650~~ $507

軟體設計耦合的平衡之道：建構模組化軟體系統的通用設計原則 (Balancing Coupling in Software Design: Successful Software Architecture in General and Distributed Systems)
$453

DeepSeek實戰：操作攻略與商業應用
~~$594~~ $564

AI Agent 開發：做與學 AutoGen 入門與進階
$305

DeepSeek 超級個體：提示專家 + 職場高手 + 編程極客
~~$980~~ $774

生成式 AI x RAG x Hugging Face 提示工程打造數據採樣神技
~~$790~~ $624

OpenAI API 開發手冊 - 用 Responses API、Realtime API、MCP、Agents SDK、Function calling 打造即時語音、RAG、Agent 應用
~~$880~~ $695

跟 NVIDIA 學 LLM 基礎！GPT、Transformer、attention、self-attention 機制、seq2seq 架構，紮穩大型語言模型的深度學習建模技術（《跟 NVIDIA 學深度學習》修訂版）
~~$650~~ $513

動手做 AI Agent：LLM 應用開發實戰力

商品描述

本書系統闡述了DeepSeek大模型架構、部署及應用實戰的相關內容。從人工智能和大模型的基礎理論出發，深入剖析了DeepSeek的底層技術，如Transformer架構、混合專家、動態任務分配、稀疏激活及歸一化等關鍵技術，並詳細介紹了模型訓練、優化和推理的前沿方法。書中不僅展示了DeepSeek在多模態模型和推理系統中的技術優勢，還提供了豐富的實戰案例，涵蓋了從本地部署到雲端應用，再到與辦公軟件、開發工具和Web交互系統的無縫集成。通過理論解析與實踐演示，讀者將獲得從模型設計到實際應用全流程的詳細指導。本書非常適合人工智能領域的技術開發者、系統架構師，以及初探大模型應用的愛好者學習，也可用作高等院校相關專業的教材及參考書。

目錄大綱

第1章人工智能和DeepSeek概述
1.1 人工智能
1.1.1 什麼是人工智能
1.1.2 人工智能的起源與發展歷程
1.2 大模型
1.2.1 大模型的原理和作用
1.2.2 大模型的興起與現狀
1.2.3 主流大模型介紹
1.3 DeepSeek
1.3.1 DeepSeek簡介
1.3.2 DeepSeek對人工智能市場的影響
1.3.3 DeepSeek的產品
1.3.4 DeepSeek的應用場景
1.3.5 DeepSeek與其他模型的技術對比
第2章 DeepSeek底層架構技術
2.1 Transformer架構技術
2.1.1 Transformer簡介
2.1.2 Transformer的核心組件
2.1.3 多頭註意力機制
2.1.4 多頭潛在註意力
2.2 動態任務分配
2.2.1 動態任務分配的特點和原理
2.2.2 動態任務分配的應用場景
2.3 稀疏激活機制
2.3.1 稀疏激活機制簡介
2.3.2 稀疏激活機制的實現方式
2.3.3 稀疏激活機制的應用領域
2.4 混合專家架構技術
2.4.1 混合專家架構簡介
2.4.2 MoE的特點
2.4.3 MoE的應用
2.4.4 DeepSeek中的MoE
2.5 歸一化技術
2.5.1 歸一化技術的必要性
2.5.2 LayerNorm技術
2.5.3 RMSNorm技術
2.6 模型訓練與優化技術
2.6.1 多令牌預測（MTP）技術
2.6.2 高效並行策略
2.6.3 混合精度訓練與量化策略
2.6.4 EMA顯存優化
2.6.5 頭尾參數共享
第3章 DeepSeekMoE架構
3.1 DeepSeekMoE架構簡介
3.1.1 背景
3.1.2 DeepSeekMoE架構策略
3.1.3 DeepSeekMoE與傳統MoE架構的區別
3.2 DeepSeekMoE架構詳解
3.2.1 細粒度專家細分
3.2.2 共享專家隔離
3.2.3 負載平衡
3.3 DeepSeekMoE的微調
3.3.1 DeepSeekMoE微調技術介紹
3.3.2 ZeRO優化
3.3.3 具體實現
3.4 性能評估
3.4.1 訓練數據和分詞
3.4.2 硬件基礎設施
3.4.3 設置超參數
3.4.4 評估基準
3.4.5 評估結果
3.4.6 和稠密模型的對比
3.4.7 DeepSeekMoE 2B模型測試
3.5 消融研究
3.5.1 消融研究介紹
3.5.2 消融研究在大模型中的應用
3.5.3 DeepSeekMoE的消融研究
3.6 DeepSeekMoE 16B測試
3.6.1 訓練數據和分詞
3.6.2 設置超參數
3.6.3 評估基準
3.7 DeepSeekMoE 16B的對齊
3.7.1 測試設置
3.7.2 評估結果
第4章 DeepSeek多模態大模型架構
4.1 DeepSeek多模態大模型的發展歷程
4.2 Janus模型架構
4.2.1 架構簡介
4.2.2 多模態理解
4.2.3 視覺生成路徑
4.2.4 自回歸Transformer
4.2.5 三階段訓練策略（Three-Stage Training Procedure）
4.2.6 Janus模型的推理與擴展性
4.3 Janus-Pro架構
4.3.1 解耦視覺編碼
4.3.2 訓練策略
4.3.3 優化訓練策略
4.3.4 數據擴展策略
4.3.5 模型規模擴展
4.4 JanusFlow架構
4.4.1 實現多模態模型
4.4.2 結合自回歸語言模型與Rectified Flow
4.4.3 採用任務解耦的編碼器 (Decoupled Encoder Design)
4.4.4 U-ViT模型
4.4.5 三階段訓練策略
4.4.6 實驗結果
4.5 DeepSeek-VL2多模態視覺模型
4.5.1 模型架構
4.5.2 技術創新與亮點
4.5.3 模型訓練
4.5.4 和Janus項目的對比
第5章 DeepSeek推理模型架構
5.1 背景
5.2 DeepSeek-R1模型簡介
5.2.1 DeepSeek-R1模型演進
5.2.2 DeepSeek-R1模型的基本架構
5.2.3 訓練方案
5.2.4 開源信息
5.3 推理模型的相關技術
5.3.1 混合專家（MoE）架構
5.3.2 多頭潛在註意力
5.3.3 強化學習
5.4 DeepSeek-R1-Zero訓練方案
5.4.1 強化學習算法
5.4.2 獎勵建模
5.4.3 訓練模板
5.4.4 DeepSeek-R1-Zero的自我進化過程
5.4.5 在DeepSeek-R1-Zero的“頓悟時刻”
5.4.6 DeepSeek-R1-Zero性能測試
5.5 DeepSeek-R1訓練方案
5.5.1 冷啟動
5.5.2 推理導向的強化學習
5.5.3 拒絕採樣和監督微調
5.5.4 全場景強化學習
5.6 蒸餾處理
5.6.1 AI大模型中的蒸餾處理
5.6.2 基礎模型的選擇與蒸餾過程
5.6.3 模型蒸餾的技術原理
5.6.4 評估蒸餾模型
5.6.5 小結
第6章 DeepSeek模型的本地部署
6.1 本地部署的優勢與常見挑戰
6.2 Ollama本地部署
6.2.1 安裝Ollama
6.2.2 DeepSeek模型的安裝與配置
6.2.3 基於本地DeepSeek模型的對話程序
6.3 LM Studio本地可視化部署
6.3.1 LM Studio的特點與安裝
6.3.2 安裝並配置DeepSeek模型
6.3.3 LM Studio API
6.3.4 使用Dify調用LM Studio模型
6.4 Chatbox本地部署
6.