這就是 DeepSeek:DeepSeek 從原理到實踐
王卓,薛棟,隆建
- 出版商: 北京大學
- 出版日期: 2025-10-01
- 售價: $414
- 語言: 簡體中文
- 頁數: 236
- ISBN: 7301361696
- ISBN-13: 9787301361696
-
相關分類:
Large language model
尚未上市,歡迎預購
相關主題
商品描述
這是一本系統講解DeepSeek大模型的技術指南,它全面覆蓋DeepSeek的底層架構、核心原理及實際應用。本書從人工智能基礎、DeepSeek的技術架構,到多模態模型的訓練與優化,幫助讀者深入理解DeepSeek的工作機制,並掌握DeepSeek在大規模預訓練、推理優化及應用部署中的關鍵技術。全書共有12章,主要包括DeepSeek的使命與願景、人工智能與大模型、DeepSeek底層架構解密、DeepSeek的工作原理、DeepSeek的內部機制、DeepSeek的架構揭秘、DeepSeek的訓練過程、DeepSeek的訓練優化與成本控制、DeepSeek-R1、稀疏矩陣技術、DeepSeek部署實戰,以及DeepSeek接入實戰。 本書全面而深入的技術解讀,不僅適用於對大模型感興趣的技術人員,還適合人工智能研究者、開發者及行業從業者。同時,書中結合實戰案例和對比分析,幫助讀者理解DeepSeek的獨特優勢及未來的發展方向。
作者簡介
王卓 華中科技大學計算機碩士,精通C、C++、C#、Python等語言。曾任阿裏達摩院 算法工程師,參與Qwen1/Qwen1.5大模型落地工作,擅長人工智能算法原理、大模型開發、計算機視覺及自然語言處理。目前專註於電商預訓練語言模型和輿情風險監控大模型的研發。 薛棟 華東理工大學信息科學與技術學院副教授/碩士生導師,德國慕尼黑工業大學博士,榮獲上海市高層次青年人才計劃等稱號。曾在荷蘭格羅寧根大學(RUG)、德國卡爾斯魯厄理工學院(KIT)任教,長期從事人工智能與大數據研究,發表SCI論文30余篇,主持多項 及企業科研項目。所在X-D Lab已推出MindChat、Sunsimiao、GradChat等垂直領域大模型項目。 隆建 華東理工大學副教授/博導,主要研究人工智能方法及工業應用,發表論文60余篇,擁有50余項專利。主持20余項 及企業科研項目,榮獲多項 /省部級科技獎項,並指導學生獲得20余項獎項。
目錄大綱
第1章 DeepSeek的使命與願景:開辟AI應用新紀元
1.1 DeepSeek的由來
1.2 DeepSeek的主要產品和應用場景
1.3 DeepSeek與其他模型的性能對比
1.4 DeepSeek初體驗
1.5 DeepSeek API
第2章 人工智能與大模型:智能時代的核心引擎
2.1 人工智能基礎介紹
2.2 什麼是大模型
2.3 神經網絡
2.4 網絡模型
第3章 DeepSeek 底層架構解密:探尋大模型的基石
3.1 基於 Transformer架構
3.2 動態任務分配:智能計算的自適應引擎
3.3 稀疏激活機制:動態結構感知的高效優化範式
3.4 MoE架構:基於稀疏專家的動態路由系統
3.5 歸一化技術:穩定性與效率的平衡術
3.6 多令牌預測技術:增強推理能力的新途徑
3.7 高效並行策略:性能極限的系統設計
3.8 混合精度與量化:訓練效率的加速器
3.9 顯存優化與結構共享:資源利用的範式創新
第4章 DeepSeek 的工作原理:從生成到模型安全的全面解析
4.1 逐詞生成:DeepSeek的輸出過程
4.2 概率模型:如何生成有意義的文本
4.3 性能優化與效率提升
4.4 模型的安全性與可靠性
第5章 DeepSeek 的內部機制:智能思維的發動機
5.1 “嵌入”與向量空間
5.2 語義理解與生成
5.3 模型的決策過程
第6章 DeepSeek 的架構揭秘:駕馭大模型的核心
6.1 探索模型網絡:基礎DeepSeekMoE架構剖析
6.2 升級進化:DeepSeek-V3模型全景
6.3 多模態大模型:DeepSeek的跨感知融合
6.4 升級版Janus-Pro:多模態進階的實踐與優化
第7章 DeepSeek 的訓練過程:從數據到微調的全流程揭秘
7.1 數據準備與預處理
7.2 基礎訓練:從無到有
7.3 微調與優化:提升性能
第8章 DeepSeek 的訓練優化與成本控制:效率與經濟性的雙重探索
8.1 數據規模、訓練策略與低成本秘訣
8.2 鏈式思考與可解釋推理:DeepSeek的獨到之處
8.3 開源策略:如何用開放共享降低壁壘
第9章 DeepSeek-R1:推理模型的革新之旅
9.1 DeepSeek-R1全景探秘
9.2 DeepSeek-R1開源信息概覽
9.3 DeepSeek-R1-Zero自進化訓練體系揭秘
9.4 全場景強化學習:分析完整的訓練策略
9.5 蒸餾處理
0章 稀疏矩陣技術:計算效率的新型加速利器
10.1 稀疏矩陣技術概述
10.2 稀疏矩陣技術在DeepSeek中的應用
10.3 稀疏矩陣技術的前沿探索
1章 DeepSeek 部署實戰:從本地到雲端的一體化落地
11.1 基於Ollama的本地部署
11.2 基於Chatbox的本地部署
11.3 基於LM Studio的本地部署
11.4 基於Ollama+Docker+Open WebUI的本地部署
11.5 DeepSeek的遠程和雲端部署
2章 DeepSeek 接入實戰:無縫集成與多平臺落地指南
12.1 Chatbox接入實戰
12.2 NextChat接入實戰
12.3 通過OfficeAI將DeepSeek接入Office
12.4 將DeepSeek接入VS Code
12.5 將DeepSeek接入PyCharm
12.6 基於茴香豆+DeepSeek的微信聊天機器人
DeepSeek大模型技術全揭秘,架構+訓練+優化+落地全覆蓋,理論結合實踐,掌握DeepSeek在大規模預訓練、推理優化及應用部署中的關鍵技術,全面提升自主開發與創新能力。