實用 DeepSeek 技術 - 開發真正可用的 LLM 應用程式

韓曉晨 著

  • 出版商: 深智
  • 出版日期: 2025-10-19
  • 定價: $880
  • 售價: 7.9$695
  • 語言: 繁體中文
  • 頁數: 512
  • ISBN: 6267757390
  • ISBN-13: 9786267757390
  • 相關分類: Large language model
  • 尚未上市,歡迎預購

  • 實用 DeepSeek 技術 - 開發真正可用的 LLM 應用程式-preview-1
  • 實用 DeepSeek 技術 - 開發真正可用的 LLM 應用程式-preview-2
  • 實用 DeepSeek 技術 - 開發真正可用的 LLM 應用程式-preview-3
  • 實用 DeepSeek 技術 - 開發真正可用的 LLM 應用程式-preview-4
  • 實用 DeepSeek 技術 - 開發真正可用的 LLM 應用程式-preview-5
  • 實用 DeepSeek 技術 - 開發真正可用的 LLM 應用程式-preview-6
  • 實用 DeepSeek 技術 - 開發真正可用的 LLM 應用程式-preview-7
  • 實用 DeepSeek 技術 - 開發真正可用的 LLM 應用程式-preview-8
  • 實用 DeepSeek 技術 - 開發真正可用的 LLM 應用程式-preview-9
  • 實用 DeepSeek 技術 - 開發真正可用的 LLM 應用程式-preview-10
  • 實用 DeepSeek 技術 - 開發真正可用的 LLM 應用程式-preview-11
  • 實用 DeepSeek 技術 - 開發真正可用的 LLM 應用程式-preview-12
  • 實用 DeepSeek 技術 - 開發真正可用的 LLM 應用程式-preview-13
  • 實用 DeepSeek 技術 - 開發真正可用的 LLM 應用程式-preview-14
  • 實用 DeepSeek 技術 - 開發真正可用的 LLM 應用程式-preview-15
  • 實用 DeepSeek 技術 - 開發真正可用的 LLM 應用程式-preview-16
  • 實用 DeepSeek 技術 - 開發真正可用的 LLM 應用程式-preview-17
實用 DeepSeek 技術 - 開發真正可用的 LLM 應用程式-preview-1

相關主題

商品描述

Transformer 架構與 MoE 專家路由解析

DeepSeek 系列模型架構與優化策略

FP8 混合精度與 DualPipe 平行算法實作

☆多頭注意力與跨節點通訊技術最佳化

☆程式自動生成、自動補全與偵錯技術

Prompt 工程與 Few-shotSoft Prompt 設計

☆多工任務調度與跨領域特化模型應用

☆零售、製造等行業的訂製化實戰案例

☆資料構建、自監督學習與模型微調

DeepSeek-R1 自回歸快取與長上下文推理

☆分散式訓練與推理部署策略

API 呼叫設計、吞吐調校與系統整合

 

本書共分為十一章,涵蓋大模型核心技術與實務應用。第一章介紹大模型的演進歷程與基礎概念,說明深度學習、Transformer MoE 架構的發展脈絡。第二章深入解析 DeepSeek 的核心設計,包括多頭注意力、FP8 混合精度與跨節點通訊技術。第三章建立大模型開發基礎,從 API 調用到資料準備與模型訓練。第四章聚焦對話生成與語義理解,實作多輪對話與語意分析。第五章實作從文字到程式的智慧開發流程,包含程式補全與錯誤偵測。第六章說明多工學習與跨領域應用,包括少樣本調適與領域特化。第七章系統介紹 Prompt 工程設計與調優策略。第八章探討模型最佳化與分散式部署。第九章解析資料構建與自監督學習流程。第十章展示訂製化模型開發在零售與製造業的應用案例。第十一章專章說明 DeepSeek-R1 的推理引擎與最新優化技術。全書內容完整銜接理論與實踐,適合開發者快速掌握 DeepSeek 的開發核心。

作者簡介

韓曉晨

長期從事高性能計算與大模型訓練算力優化研究。近十年來,專注於智能計算架構優化及大規模數據處理,深耕於控制算法、機器視覺等領域。近年來,重點研究大模型訓練加速、算力調度與異構計算優化,致力於提升計算效率與資源利用率,推動大規模人工智慧模型的高效部署與應用。

目錄大綱

1部分 理論基礎與技術實現

 

1章 大模型技術導論

1.1 深度學習與大模型的演進

1.1.1 深度學習的歷史背景

1.1.2 Transformer 架構的崛起與影響

1.1.3 MoE 模型簡介

1.2 大模型的核心概念

1.2.1 參數規模與計算複雜度

1.2.2 資料驅動的模型最佳化

1.2.3 架構創新的推動作用

1.3 生態系統與開放原始碼框架

1.3.1 開放原始碼模型的價值

1.3.2 DeepSeek 系列模型生態概述

1.3.3 應用場景與案例

1.4 應用導向的智慧模型建構

1.4.1 從理論到實踐的轉換

1.4.2 應用程式開發中的常見挑戰

1.4.3 DeepSeek 在工業中的應用

1.5 本章小結

1.6 思考題

 

2章 DeepSeek 核心架構解析

2.1 Transformer 與多頭注意力機制

2.1.1 基礎架構複盤

2.1.2 深度注意力最佳化

2.1.3 高效解碼策略

2.2 MoE 模型的深入剖析

2.2.1 動態路由機制詳解

2.2.2 專家負載平衡策略

2.2.3 高效通訊最佳化

2.3 FP8 混合精度計算

2.3.1 精度與性能的平衡

2.3.2 FP8 的實現與實踐

2.3.3 經濟成本導向的設計原則

2.4 深度最佳化技術

2.4.1 DualPipe 雙管道平行算法

2.4.2 上下文視窗擴充技術

2.4.3 資料與模型並行的協作最佳化

2.5 跨節點通訊技術詳解

2.5.1 跨節點通訊機制:All-to-All

2.5.2 InfiniBand 最佳化

2.5.3 NVLink 頻寬最佳化

2.6 本章小結

2.7 思考題

 

3章 基於DeepSeek 的大模型開發基礎

3.1 開發環境與工具鏈

3.1.1 API 配置與呼叫流程

3.1.2 開放原始碼工具與開發框架整合

3.1.3 專案化部署與最佳化

3.2 資料準備與前置處理

3.2.1 資料清洗與標注

3.2.2 多語言處理與相容性

3.3 模型訓練與調優

3.3.1 超參數選擇與調整

3.3.2 訓練過程的監控與偵錯

3.3.3 訓練瓶頸與解決方案

3.4 模型評估與上線

3.4.1 模型的性能測試與最佳化指標

3.4.2 部署前驗證流程

3.4.3 即時服務與持續改進

3.5 本章小結

3.6 思考題

 

4章 對話生成與語義理解

4.1 對話模型的輸入與輸出設計

4.1.1 對話上下文管理

4.1.2 多輪對話生成最佳化

4.1.3 對話品質評估方法

4.2 DeepSeek 在對話任務中的表現

4.2.1 問答系統的實現

4.2.2 情景模擬與角色扮演

4.2.3 個性化對話的實現

4.3 語義理解的技術路徑

4.3.1 基於深度學習的文字分析

4.3.2 深層語義建模

4.3.3 領域調配與語義特化

4.4 基於DeepSeek 的對話模型創新

4.4.1 填空生成技術

4.4.2 首碼續寫與創意生成

4.4.3 特殊格式輸出

4.5 本章小結

4.6 思考題

 

2 部分 開發實踐與技術應用

 

5章 智慧開發:從文字到程式

5.1 程式設計智慧幫手的核心技術

5.1.1 程式生成的基礎邏輯

5.1.2 多語言程式設計支援

5.1.3 演算法輔助與最佳化

5.2 DeepSeek 在程式設計任務中的表現

5.2.1 自動補全與錯誤檢測

5.2.2 演算法問題求解

5.2.3 專案開發的輔助能力

5.3 高效程式生成與偵錯

5.3.1 生成過程的控制技巧

5.3.2 偵錯能力的技術實現

5.3.3 專案化專案整合

5.4 開發環境整合實戰

5.4.1 基於VS Code 的外掛程式開發

5.4.2 API IDE 的無縫銜接

5.5 本章小結

5.6 思考題

 

6章 DeepSeek 的多工與跨領域應用

6.1 多工學習的技術架構

6.1.1 多工模型的基本原理

6.1.2 多工學習的權重共用策略

6.1.3 DeepSeek 在多工場景下的最佳化

6.2 任務特化模型的開發與微調

6.2.1 模型微調的核心技術

6.2.2 基於少樣本學習的任務調配

6.3 跨領域任務的實際應用

6.3.1 文字生成與內容創作

6.3.2 程式生成與演算法最佳化

6.3.3 科學計算與公式推理

6.4 DeepSeek 跨領域應用的案例分析

6.4.1 教育領域的智慧問答系統

6.4.2 金融領域的文字挖掘與分析

6.4.3 專案領域的高效文件生成

6.5 本章小結

6.6 思考題

 

7章 Prompt 設計

7.1 提示工程基礎

7.1.1 Prompt 最佳化的基本原理

7.1.2 Prompt 格式設計與控制

7.2 高級Prompt 設計與應用

7.2.1 長上下文的提示最佳化

7.2.2 複雜指令的執行路徑

7.2.3 模型堅固性提示

7.3 Prompt 調優技術探索

7.3.1 Few-Shot Zero-Shot 最佳化

7.3.2 Soft Prompt Embedding Tuning

7.4 本章小結

7.5 思考題

 

3 部分 行業應用與訂製化開發

 

8章 模型深度最佳化與部署

8.1 資源最佳化與成本控制

8.1.1 模型輕量化技術

8.1.2 顯示記憶體與記憶體最佳化

8.2 分散式部署技術

8.2.1 資料並行與模型並行

8.2.2 混合並行

8.3 本章小結

8.4 思考題

 

9章 資料建構與自監督學習

9.1 高品質訓練資料的建構:以醫院門診資料為例

9.1.1 醫療資料的擷取與標注

9.1.2 資料特化:門診資料去重與清洗

9.2 自監督學習技術

9.2.1 自監督學習任務的設計與實現

9.2.2 模型的自我調整學習能力

9.3 本章小結

9.4 思考題

 

10 章 工業導向的訂製化模型開發

10.1 企業需求分析與場景辨識

10.1.1 業務場景的智慧化需求

10.1.2 不同行業的應用特點

10.2 訂製化模型開發流程

10.2.1 資料模型設計

10.2.2 任務特化微調與訓練

10.2.3 模型整合與系統部署

10.3 訂製化案例分析

10.3.1 零售行業的需求預測系統

10.3.2 製造行業的生產效率最佳化:服裝倉庫排程問題

10.4 本章小結

10.5 思考題

 

11 章 全新推理大模型DeepSeek-R1

11.1 DeepSeek-R1 的推理能力與計算最佳化

11.1.1 自回歸推理的執行機制與快取加速策略

11.1.2 長文字上下文追蹤:視窗注意力與KV 快取

11.1.3 低功耗裝置上的模型壓縮與輕量化推理

11.2 DeepSeek-R1 的核心架構解析

11.2.1 計算圖最佳化與Transformer 結構改進

11.2.2 MoE 動態路由機制與負載平衡

11.2.3 高效訓練框架:管線並行與分散式運算

11.3 API 呼叫與應用程式開發指南

11.3.1 API 請求參數詳解

11.3.2 高級API 能力:流式推理、多工指令與函式呼叫

11.3.3 API 吞吐量最佳化與併發呼叫管理

11.4 DeepSeek-R1 在多工推理中的表現

11.4.1 數學符號推理、代數計算與公式解析

11.4.2 事實性知識檢索:RAG 增強與模型幻覺抑制

11.4.3 多輪對話與長程推理:上下文視窗裁剪與動態記憶

11.5 本章小結

11.6 思考題