具身智能:從理論到實踐

易顯維、吳凱

  • 出版商: 清華大學
  • 出版日期: 2025-10-01
  • 售價: $594
  • 語言: 簡體中文
  • ISBN: 7302702195
  • ISBN-13: 9787302702191
  • 相關分類: AI Coding
  • 下單後立即進貨 (約4週~6週)

  • 具身智能:從理論到實踐-preview-1
  • 具身智能:從理論到實踐-preview-2
  • 具身智能:從理論到實踐-preview-3
具身智能:從理論到實踐-preview-1

商品描述

"《具身智能:從理論到實踐》聚焦人工智能前沿的具身智能領域,以“理論奠基-技術解析-實踐應用”為主線,系統闡述相關內容。《具身智能:從理論到實踐》共8章,構建了從基礎概念到工程應用的完整知識體系。開篇介紹人工智能發展脈絡,引出具身智能的概念,並明確其定義等關鍵內容。接著通過采摘福白菊的實例,剖析傳統機械臂控制方法及局限。隨後深入探討VLA原理、SLAM技術、機器人感知與自主定位技術、視覺語言導航技術等核心要點,並詳細介紹相關算法和模型。書中著重展示VLA技術於實體機械臂上的應用實踐,同時詳細講解VLN的具體代碼,涵蓋算法原理與實現過程等內容。 全書融合理論推導與代碼實踐,既有學術深度,又具工程實用性,適合人工智能研究者、工程師及愛好者閱讀,為具身智能技術的研發與應用創新提供全面參考。"

作者簡介

"易顯維中國地質大學碩士,擁有13年算法研發及管理經驗。曾任科大訊飛、北京百分點科技和中國建設銀行的算法專家。在數據競賽、機器視覺和自然語言處理等領域具有豐富經驗,為公司技術研發和業務拓展作出了巨大貢獻。主導了多項NLP平臺和機器人產品的研發,並參與了國內外多個學術評測和算法競賽,取得了優異成績。吳 凱中國科學院大學博士,國防科技大學博士後,高級工程師。博士期間參與“嫦娥三號”工程中月球車制圖與視覺導航核心算法模塊的研發,博士後期間負責國防領域的無人機圖像測量與視覺導航系統的關鍵技術研究,並開發一整套無人機視覺巡查實時應用系統。出站後作為資深研究員加入智駕領域知名科創企業,長期負責智能駕駛領域多傳感器融合感知、低成本建圖定位、自主導航算法自研及工程化落地,曾獲測繪科技進步一等獎,已申請多項智駕核心技術專利。"

目錄大綱

目    錄

第1章  序章 1

1.1  創作背景:人工智能的範式躍遷 1

1.2  具身智能:打破虛擬與現實的次元壁 4

1.3  大模型與物理世界的融合革命 8

1.4  具身智能的定義與範疇 10

1.5  具身智能的關鍵問題 11

1.6  本章小結 12

第2章  傳統機械臂控制實例 13

2.1  目標檢測模型的數據集構建和模型訓練 14

2.1.1  數據集構建及數據預處理 14

2.1.2  模型訓練 15

2.1.3  模型優化與調整 15

2.1.4  實際應用與效果評估 15

2.2  構建坐標系,獲取深度信息 16

2.2.1  構建世界坐標系 16

2.2.2  模型的擬合與建立 16

2.3  機械臂控制實現 19

2.3.1  坐標系的建立與標定 19

2.3.2  坐標轉換—世界坐標到機械臂基坐標的轉換 19

2.3.3  求解機械臂關節需轉動角度 20

2.3.4  軌跡規劃—生成關節空間軌跡 21

2.3.5  控制實現 22

2.4  核心代碼講解 22

2.5  本章小結 28

第3章  VLA(視覺-語言-動作)原理 29

3.1  視覺-語言-動作發展範式 30

3.1.1  傳統系統的模態割裂 30

3.1.2  VLA範式—從割裂到融合的跨越 31

3.1.3  VLA的核心價值—具身智能的落地實踐 31

3.2  隱式端到端VLA 31

3.2.1  基礎模塊介紹 32

3.2.2  方案分類 36

3.2.3  RT-1算法詳解 39

3.3  顯式端到端VLA 42

3.3.1  顯式端到端VLA的定義 43

3.3.2  UniPi:開山之作 43

3.4  分層端到端VLA 48

3.4.1  分層端到端VLA的舉例說明 49

3.4.2  Pi0-CogACT算法詳解 50

3.5  本章小結 55

第4章  SLAM基礎原理簡介 56

4.1  視覺裏程計原理 57

4.1.1  2D-3D:對極幾何 58

4.1.2  八點法求解本質矩陣 60

4.1.3  3D-2D:PnP 61

4.1.4  3D-3D匹配:ICP 65

4.2  後端狀態估計與累計誤差 67

4.2.1  線性系統和卡爾曼濾波 69

4.2.2  非線性系統和擴展卡爾曼濾波 70

4.2.3  光束平差法(BA)與圖優化 71

4.3  回環檢測消除累計誤差實現精準導航 75

4.3.1  詞袋模型 76

4.3.2  字典 78

4.3.3  相似度計算 79

4.4  本章小結 81

第5章  機器人感知與自主定位 82

5.1  常見傳感器在具身智能中的應用 84

5.1.1  相機 84

5.1.2  慣性測量單元 85

5.1.3  激光雷達 86

5.1.4  角雷達 87

5.1.5  全球衛星定位系統 87

5.1.6  輪速傳感器 88

5.1.7  超聲波傳感器 89

5.2  多傳感器時間同步 90

5.2.1  時間同步的意義 91

5.2.2  基本方法 91

5.2.3  實驗方案 93

5.2.4  應用案例分析 94

5.2.5  性能提升策略 95

5.3  輪式機器人外參標定 96

5.3.1  基礎理論 97

5.3.2  基本方法 100

5.3.3  實驗方案 102

5.3.4  應用案例分析 107

5.4  場景感知 111

5.4.1  多模態信息融合 112

5.4.2  目標檢測與實例分割 114

5.4.3  場景深度感知 116

5.5  記憶地圖構建與智能導航 119

5.5.1  記憶地圖構建 120

5.5.2  記憶地圖的表示與存儲 120

5.5.3  記憶地圖的更新與維護 124

5.5.4  基於記憶地圖的自主定位 127

5.6  場景理解與認知 128

5.7  本章小結 130

第6章  視覺語言導航原理 132

6.1  概述 133

6.1.1  任務定義 133

6.1.2  任務介紹 133

6.1.3  發展歷史 134

6.1.4  任務三要素 135

6.1.5  VLN系統的構成 136

6.2  導航任務的劃分 138

6.2.1  指令導向任務 138

6.2.2  目標導向任務 140

6.2.3  需求導向任務 142

6.2.4  對話導向任務 144

6.3  數據集基準與仿真器 145

6.3.1  數據集基準範式 146

6.3.2  常見數據集介紹 146

6.3.3  仿真環境 150

6.4  評估指標 151

6.5  Baseline方法 155

6.5.1  動作空間劃分 155

6.5.2  圖像的輸入處理 155

6.5.3  算法流程 156

6.5.4  損失函數 158

6.5.5  實驗結果 159

6.6  本章小結 160

第7章  VLA實戰 161

7.1  ACT算法實踐 163

7.1.1  ACT算法原理 163

7.1.2  ACT算法實現 168

7.1.3  ACT算法復現 192

7.2  DP算法實踐 206

7.2.1  DP算法原理 206

7.2.2  DP算法實現 211

7.2.3  DP算法復現 219

7.3  本章小結 222

第8章  VLN實戰 223

8.1  DUET原理 223

8.1.1  整體流程 223

8.1.2  詳細實現 224

8.2  復現流程 228

8.2.1  環境配置 228

8.2.2  預訓練 235

8.2.3  微調和驗證 242

8.3  本章小結 248