DeepSeek 硬核技術解讀

劉丹 尹俊希 楊院伶

  • 出版商: 機械工業
  • 出版日期: 2025-11-01
  • 售價: $594
  • 語言: 簡體中文
  • ISBN: 7111792289
  • ISBN-13: 9787111792284
  • 相關分類: Large language model
  • 尚未上市,歡迎預購

相關主題

商品描述

這是一本系統剖析DeepSeek系列大模型技術體系與實踐路徑的專著。本書立足於作者在大模型研發一線的深厚積累,結合深度學習、強化學習、分布式系統與模型優化等多領域知識,全面闡述 DeepSeek在模型架構、訓練推理、基礎設施及數據工程等方面的核心突破與工程實踐。全書兼具理論嚴謹性與實踐指導性,旨在幫助AI研究者、工程師和技術決策者深入理解當代大模型的關鍵技術,掌握高效、低成本構建和部署 AI系統的方法。本書分為兩部分。 部分 DeepSeek學習前置知識( ~5章)從DeepSeek的模型概述和重要突破切入,系統介紹經典Transformer架構、強化學習基礎、大語言模型中的RLHF和量化技術,以及分布式訓練的基礎知識,為讀者奠定堅實的理論和技術基礎。 第二部分 DeepSeek核心技術(第6~11章)首先,深入解析DeepSeek的模型架構創新,包括 MoE、MLA與分詞器設計,探討跨模態對齊、負載均衡、基礎設施優化及數據處理等關鍵議題,揭示其在高性能、低資源消耗背後的系統級工程實現。然後,聚焦DeepSeek V3、VL2及開源推理模型的訓練邏輯、推理及優化,涵蓋訓練策略、超參數設計、數據構建以及Prefill、Decode等推理階段的深度優化,為構建高效、可擴展的AI系統提供完整方法論和實戰參考。本書不僅透徹解讀技術報告, 重視將前沿理論與工業實踐相結合,幫助讀者理解AI系統構建的本質規律與發展趨勢,為學術界和工業界提供了一條清晰、可覆現的高效能人工智能研發路徑

作者簡介

劉丹 大模型算法專家,面壁智能開源社區前技術負責人。先後在科大訊飛、面壁智能、國防科技大學等企業和高校擔任算法專家和技術負責人。精通模型架構、模型訓練、效率優化、前沿AI技術落地。熱衷於技術布道,開源的技術報告瀏覽量超過30萬人次,在GitHub上開源的項目獲得了超過30k的星標(Star)。擁有豐富的軍工級、重大企業級項目經驗,多個重大項目進入央視直播。
尹俊希 大模型領域 專家,在AI領域有多年的從業經驗,在學術界和工業界均有廣泛的影響力。曾任Facebook 工程師及OPPO北美人工智能研究院研究員。精通算法設計、模型架構、模型訓練及強化學習等前沿技術,尤其專註於大模型的技術探索與產業應用,近年來在該方向取得多項重要成果。