大模型驅動的具身智能 架構,設計與實現

程戈

  • 出版商: 機械工業
  • 出版日期: 2025-06-01
  • 售價: $534
  • 語言: 簡體中文
  • ISBN: 7111778812
  • ISBN-13: 9787111778813
  • 相關分類: LangChain
  • 下單後立即進貨 (約4週~6週)

相關主題

商品描述

大模型賦能,重新定義智能機器人的未來。

本書是一部講解如何用大模型驅動具身智能的權威指南,系統揭示了從底層架構到實戰部署的完整技術路徑。作者團隊融合多年一線研發經驗,深入講解如何在多模態環境中,實現智能機器人的任務理解、動作控制、記憶建構與仿真協同。本書不僅提供紮實的理論基礎,更通過豐富的行業案例與系統性的方法論,幫助讀者構建面向未來的具身智能系統。

通過閱讀本書,你將獲得:

(1)全面理解大模型如何賦能具身智能。揭示大型語言模型在感知-決策-執行鏈條中的核心作用,理清從感知到行為的智能演化路徑。

(2)掌握任務規劃與動作控制核心技術。深度解析任務分解、動作生成、空間約束與控制策略,覆蓋從高層意圖到低層執行的全鏈路建模方法。

(3)構建具身智能的記憶與反思機制。學習如何實現任務記憶、動態規劃與自我優化機制,提升機器人在覆雜環境中的自適應能力。

(4)搭建可覆用的開發與仿真框架。熟練運用 ROS、MoveIt、Gazebo 等核心中間件與仿真平臺,助力系統開發與快速疊代。

無論你是正在開發具身智能系統的工程師;投身人工智能前沿的科研人員;關註智能機器人產業落地的技術管理者或產品決策者;本書都將成為你不可或缺的參考讀物,引領你從理念到落地,真正掌握大模型時代的具身智能開發的核心技術,讓你在這場技術革新中把握先機。

目錄大綱

前言

第1章 大模型與具身智能1 

 1.1 具身智能的概念1

 1.2 傳統的決策算法3

1.2.1 預編程方法4

1.2.2 模仿學習5

1.2.3 強化學習6

 1.3 世界模型8

1.3.1 什麼是世界模型8

1.3.2 世界模型在具身智能中的作用10

 1.4 通往世界模型的漸進之路12

1.4.1 大模型編碼世界12

1.4.2 多模態大模型構建世界模擬器14

第2章 機器人系統架構19 

 2.1 機器人控制基礎19

2.1.1 機器人的分類與組成19

2.1.2 自由度與執行器22

 2.2 機器人系統設計範式24

2.2.1 層次範式24

2.2.2 行為範式25

2.2.3 混合範式27

 2.3 運動控制層級27

2.3.1 遞進規劃28

2.3.2 反應機制30

2.3.3 雙向控制架構31

2.3.4 分層與端到端33

第3章 基於大模型的混合控制架構36 

 3.1 大模型與任務級規劃36

3.1.1 基礎模型36

3.1.2 任務級分層與端到端39

 3.2 大模型與動作級規劃41

3.2.1 直接動作規劃41

3.2.2 間接動作規劃43

3.2.3 動作級分層與端到端44

3.2.4 具身大模型45

 3.3 基元級與伺服級46

3.3.1 正向運動學的計算46

3.3.2 逆向運動學的計算48

3.3.3 伺服級控制49

3.3.4 端到端控制網絡50

 3.4 具身智能分級混合架構51

第4章 具身任務級規劃54

 4.1 任務分解54

 4.2 任務級分層與端到端架構57

4.2.1 感知與規劃57

4.2.2 分層架構57

4.2.3 端到端架構58

 4.3 任務級規劃微調與外部記憶61

4.3.1 具身經驗的獲取61

4.3.2 微調與外部記憶63

第5章 分層動作級規劃65

 5.1 動作原語及其局限性65

5.1.1 動作原語66

5.1.2 技能68

5.1.3 局限性68

 5.2 基於技能的單步動作級規劃70

5.2.1 低成本具身智能方案70

5.2.2 GPTR工作流程71

5.2.3 局限性73

 5.3 基於動作原語的直接動作級規劃75

5.3.1 代碼即策略75

5.3.2 提示模板77

5.3.3 優勢與局限性78

 5.4 基於價值圖的動作級分層規劃80

5.4.1 空間信息與間接動作規劃80

5.4.2 價值圖81

5.4.3 動作規劃83

5.4.4 價值圖的構建Prompt86

5.4.5 優勢與局限性87

 5.5 基於空間位置約束的動作級分層規劃88

5.5.1 空間位置約束與軌跡優化89

5.5.2 面向任務的抓取91

5.5.3 任務感知動作規劃92

5.5.4 視覺語言模型與Prompt94

5.5.5 優勢與局限性95

第6章 端到端動作級規劃97

 6.1 統一模型與多任務模型97

 6.2 視覺語言動作模型99

6.2.1 動作規劃流程99

6.2.2 控制原語101

6.2.3 控制參數的離散化101

6.2.4 動作序列文本化103

6.2.5 詞表103

6.2.6 具身動作微調105

6.2.7 動作輸出限制106

6.2.8 優勢和局限性108

 6.3 多任務端到端109

6.3.1 端到端中的多任務109

6.3.2 多任務端到端網絡架構111

6.3.3 特征提取任務112

6.3.4 感知任務113

6.3.5 預測任務115

6.3.6 規劃任務117

6.3.7 多任務的分步訓練118

6.3.8 特斯拉全自動駕駛的多任務架構119

6.3.9 具身任務遷移122

6.3.10 優勢和局限性123

第7章 具身智能記憶125

 7.1 人類記憶125

 7.2 大模型的記憶機制127

7.2.1 參數記憶127

7.2.2 上下文與工作記憶129

7.2.3 外部記憶130

 7.3 具身智能系統中的記憶機制實現131

7.3.1 記憶來源131

7.3.2 記憶實現方式133

7.3.3 基於RAG的外部記憶機制134

7.3.4 大模型參數微調及參數編輯135

 7.4 記憶在具身智能系統中的作用137

7.4.1 記憶驅動具身智能137

7.4.2 技能學習與泛化139

第8章 決策優化142

 8.1 多計劃選擇142

8.1.1 多計劃生成143

8.1.2 最優計劃選擇144

 8.2 反思與提煉146

8.2.1 反思與提煉的過程146

8.2.2 多角色147

8.2.3 局限性148

 8.3 外部規劃器149

8.3.1 符號規劃器149

8.3.2 神經網絡規劃器151

第9章 中間件與基礎庫154

 9.1 ROS機器人中間件框架154

9.1.1 ROS的生態系統155

9.1.2 ROS 2架構156

9.1.3 分布式通信模式157

9.1.4 節點161

9.1.5 參數配置162

 9.2 MoveIt 2逆向運動庫164

9.2.1 基本概念和功能164

9.2.2 MoveIt 2的解算器庫165

9.2.3 逆向規劃的一般過程166

 9.3 人形具身逆向運動庫167

9.3.1 全身逆向運動167

9.3.2 人體姿態表征168

9.3.3 交互表征171

9.3.4 具身數據收集173

9.3.5 逆向運動遷移175

9.3.6 軌跡優化176

第10章 仿真框架178

 10.1 仿真框架的組成179

 10.2 仿真環境構建181

10.2.1 交互方式181

10.2.2 環境描述183

 10.3 代理184

 10.4 分層任務規劃186

 10.5 運動生成器188

 10.6 強化學習支持189

10.6.1 框架封裝190

10.6.2 並行仿真環境190

10.6.3 從仿真到現實192

 10.7 模仿學習和遠程操作195

第11章 具身智能的未來197

 11.1 具身智能機器人:短暫泡沫還是未來趨勢197

11.1.1 人形具身熱潮197

11.1.2 智能化與人形具身198

 11.2 行業滲透預測200

11.2.1 成熟度曲線200

11.2.2 行業成熟度202

11.2.3 加速的發展浪潮203