具身空間智能
王高昂、王宏偉
- 出版商: 清華大學
- 出版日期: 2026-05-01
- 售價: $516
- 語言: 簡體中文
- ISBN: 7302715130
- ISBN-13: 9787302715139
-
相關分類:
Reinforcement
下單後立即進貨 (約4週~6週)
相關主題
商品描述
本書系統地講解智能體在現實或虛擬三維空間中進行語義感知、場景理解以及智能決策與交互所需的基礎理論與核心技術,圍繞幾何空間、語義空間、決策空間與本體空間等核心模塊進行深入闡述和解釋。本書涵蓋三維視覺建模、深度學習感知、強化學習與模仿學習、大模型驅動的語言交互、機器人運動學與動力學、路徑規劃與抓取控制等關鍵知識,這些內容對於當下熱門的無人駕駛、人形機器人、低空飛行器、智能制造、智慧城市等領域的前沿研究具有重要意義。
作者簡介
王高昂,華盛頓大學博士,浙江大學研究員,博士生導師。主要從事人工智能、計算機視覺研究,承擔多項國家基金委、國家科學技術部、浙江省基金委等科研項目,在IJCV、CVPR等國際**期刊及會議中發表SCI/EI論文80余篇,擔任視覺與學習青年學者研討會(VALSE)第八屆執行領域主席委員會委員、PRCV領域主席等職務。
目錄大綱
目 錄
第1章 具身空間智能概述 1
1.1 具身空間智能的特征屬性 2
1.2 具身空間智能的發展歷程、應用前景和挑戰 4
1.2.1 發展歷程 4
1.2.2 應用前景 6
1.2.3 挑戰 6
1.3 核心研究內容 7
1.3.1 四類交互空間 7
1.3.2 從物理世界到仿真模擬 9
1.3.3 仿真到現實 10
1.3.4 具身場景和任務 10
1.4 習題 13
參考文獻 14
第2章 幾何空間 15
2.1 3D幾何基礎 15
2.1.1 坐標系與坐標變換 15
2.1.2 旋轉的表示 17
2.1.3 齊次變換 21
2.2 相機模型與投影 24
2.2.1 針孔相機模型 24
2.2.2 透視投影 28
2.2.3 相機標定 30
2.3 多視角幾何重建 34
2.3.1 三角測量 35
2.3.2 相機校正 37
2.3.3 極線幾何 41
2.3.4 運動恢復結構 47
2.4 習題 52
第3章 語義空間 55
3.1 基於深度學習的語義感知架構 55
3.1.1 神經元與多層感知機 55
3.1.2 卷積神經網絡 58
3.1.3 循環神經網絡 64
3.1.4 Transformer 68
3.1.5 圖神經網絡 74
3.2 視覺感知模型 77
3.2.1 目標檢測 78
3.2.2 圖像分割 80
3.2.3 深度估計 84
3.2.4 人體姿態關鍵點估計 85
3.2.5 多任務聯合的統一感知模型 90
3.3 跨模態學習和語義理解 91
3.3.1 跨模態預訓練與對齊 92
3.3.2 跨模態遷移學習 97
3.3.3 常見的跨模態任務 100
3.4 具身空間語義感知 102
3.4.1 物體材質感知 103
3.4.2 人體軀幹和手部三維網格建模與姿態估計 104
3.4.3 物體姿態估計 111
3.4.4 手物姿態聯合估計 116
3.4.5 抓取位姿估計 121
3.4.6 視覺可供性估計和功能性理解 130
3.5 習題 137
參考文獻 138
第4章 決策空間 155
4.1 決策過程 155
4.1.1 馬爾可夫決策過程 156
4.1.2 部分可觀測馬爾可夫決策過程 161
4.1.3 馬爾可夫決策過程的挑戰 163
4.2 模仿學習 164
4.2.1 行為克隆 164
4.2.2 直接策略學習 166
4.2.3 逆強化學習 167
4.2.4 生成對抗模仿學習 168
4.3 強化學習 170
4.3.1 基於策略的強化學習 170
4.3.2 基於價值的強化學習 177
4.3.3 基於模型的強化學習 180
4.4 基於語言的學習與決策 182
4.4.1 大語言模型發展歷程 182
4.4.2 基於人類反饋的強化學習 183
4.4.3 直接偏好優化 184
4.4.4 指令微調 186
4.4.5 提示學習 187
4.5 大模型智能體 190
4.5.1 自然語言交互 190
4.5.2 從語言模態到多模態 192
4.5.3 知識與記憶 193
4.5.4 推理與規劃 197
4.5.5 動作與決策 200
4.6 習題 201
參考文獻 201
第5章 本體空間 203
5.1 運動學 203
5.1.1 正運動學 203
5.1.2 逆運動學 207
5.2 動力學 211
5.2.1 從一維質點系統看比例–積分–微分控制 211
5.2.2 機械系統動力學 212
5.2.3 動力學的一般形式 214
5.3 路徑規劃 216
5.3.1 路徑搜索 216
5.3.2 路徑優化 222
5.4 控制理論 223
5.4.1 最優控制 223
5.4.2 可控性 229
5.4.3 穩定性 230
5.5 抓取和操控 232
5.5.1 操控類型 233
5.5.2 接觸運動學 234
5.5.3 接觸力與摩擦 236
5.5.4 廣義操作 239
5.6 習題 240
第6章 世界模型 242
6.1 世界模型介紹 242
6.2 生成模型概述 244
6.2.1 變分自編碼器 244
6.2.2 生成對抗網絡 246
6.2.3 自回歸生成模型 250
6.2.4 擴散模型 251
6.2.5 可控生成 255
6.3 可控視覺模擬器 256
6.3.1 長時預測 257
6.3.2 多模態 257
6.3.3 互動性 258
6.3.4 一致性 259
6.3.5 多樣化環境適配 260
6.4 物理模擬器與具身環境 261
6.4.1 具身虛擬環境的要素 261
6.4.2 三維場景數據集 263
6.4.3 仿真平臺與物理模擬器 265
6.5 具身場景生成 271
6.5.1 三維數據表示 271
6.5.2 三維物體重建生成與編輯 278
6.5.3 人體運動生成 282
6.5.4 三維場景生成 286
6.6 大語言模型、智能體模型與世界模型的結合 290
6.6.1 基於大語言模型的後端設計 291
6.6.2 增強大語言模型的後端能力 292
6.7 習題 294
參考文獻 295
第7章 具身場景任務與方法 302
7.1 具身導航 303
7.1.1 具身導航任務 303
7.1.2 具身導航方法 305
7.2 具身問答 311
7.2.1 從3D場景問答到具身問答 311
7.2.2 具身問答任務與方法 312
7.2.3 具身問答與具身導航的聯系 313
7.3 具身任務規劃 313
7.3.1 具身任務規劃任務 313
7.3.2 具身任務規劃方法 314
7.4 底層動作規劃與操控 317
7.4.1 底層動作規劃與操控任務 317
7.4.2 底層動作規劃與操控方法 317
7.5 通用具身智能體與具身基礎模型 319
7.5.1 通用具身智能體 320
7.5.2 具身基礎模型 320
7.6 具身任務數據集與測試基準 325
7.6.1 互聯網動作視頻數據集 325
7.6.2 具身導航數據集 326
7.6.3 具身問答數據集 327
7.6.4 具身任務規劃基準 327
7.6.5 本體操作數據集 328
7.7 習題 329
參考文獻 331
第8章 仿真到現實 336
8.1 仿真到現實問題 336
8.2 仿真環境優化 338
8.2.1 域隨機化 338
8.2.2 構建世界模型 340
8.3 域遷移 342
8.3.1 對抗學習 342
8.3.2 基於小樣本的元強化學習 345
8.4 外部知識引導 353
8.5 人為幹預和修正 355
8.5.1 人類經驗反饋 355
8.5.2 增強現實技術 358
8.6 習題 360
參考文獻 361
習題答案 365



