大語言模型GUI智能體:人機交互新時代

張朝運 等

  • 出版商: 電子工業
  • 出版日期: 2025-11-01
  • 售價: $648
  • 語言: 簡體中文
  • 頁數: 212
  • ISBN: 7121514079
  • ISBN-13: 9787121514074
  • 相關分類: Large language model
  • 下單後立即進貨 (約4週~6週)

相關主題

商品描述

隨著大語言模型(LLM)技術的突破,人工智能正從"語言專家”演變為具備行動能力的 智能體。大語言模型驅動的圖形用戶界面(GUI)智能體革新了傳統 GUI 的自動化方式,不 再依賴腳本或規則,而是通過自然語言理解、屏幕解析和自主決策,高效、靈活地執行任務。 本書系統介紹這一新興領域的發展背景、核心技術與應用場景,涵蓋 GUI 智能體的架構設計、 數據采集,以及大行動模型(LAM)構建、關鍵評估指標和應用,幫助讀者掌握 GUI 智能體 的完整方法論,並深入探討 GUI 智能體當前面臨的挑戰與未來發展趨勢。 全書配有豐富的圖示與實踐案例,涵蓋多種真實場景下的智能 GUI 自動化方案,幫助讀 者輕松上手。針對研究人員與開發者,本書提供了示例代碼與實踐指南,從系統搭建到核心算 法調參,都配有註釋。對於希望提高企業自動化能力的工程師,也可借鑒書中切實可行的落地 經驗。針對復雜的跨平臺操作或大規模界面測試,本書給出了行之有效的思路與實現路徑,使 GUI 智能體自動化不再是遙不可及的概念。

目錄大綱

前言 III
第 1 部分:基礎理論與背景
第 1 章 大語言模型驅動下
的人機交互革命 2
1.1 人機交互演進簡史 3
1.1.1 從 CLI 到 GUI:易用性與效率的折中 3
1.1.2 GUI 的優勢與局限 4
1.2 大語言模型的發展與影響 5
1.2.1 大語言模型的關鍵特征 5
1.2.2 大語言模型驅動智能體的誕生 7
1.3 大語言模型驅動的 GUI 智能體的興起 8
1.3.1 GUI 智能體的定義和意義 8
1.3.2 關鍵技術和形成動因 9
1.3.3 研究現狀和初步應用概覽 11
1.4 與 API-Only 智能體的比較與互補 12
1.4.1 API-Only 智能體:成熟度與早期優勢 12
1.4.2 GUI 智能體:多模態下的交互變革 13
1.4.3 關鍵差異與適用場景 13
1.4.4 融合趨勢:混合式智能體的未來 14
1.5 本章小結 15
第 2 章 GUI 自動化的發展之路 16
2.1 早期 GUI 自動化 17
2.1.1 傳統 GUI 自動化方法概覽 17
2.1.2 典型工具與軟件 19
2.2 GUI 自動化的智能之路 .20
2.2.1 機器學習在 GUI 自動化中的作用 20
2.2.2 計算機視覺在 GUI 自動化中的作用 21
2.2.3 自然語言處理在 GUI 自動化中的作用 22
2.2.4 強化學習在 GUI 自動化中的獨特優勢 22
2.3 本章小結 23
第 3 章 大語言模型與通用智能體 24
3.1 大語言模型基礎 25
3.1.1 預訓練 25
3.1.2 微調 25
3.1.3 後訓練 26
3.1.4 視覺與文本的融合 26
3.2 通用智能體 27
3.2.1 推理分析 28
3.2.2 記憶存儲 30
3.2.3 工具調用 32
3.3 本章小結 34
第 2 部分:核心技術與方法
第 4 章 GUI 智能體的體系結構與核心設計 36
4.1 基礎架構與工作流程 37
4.1.1 總體架構概覽 37
4.1.2 工作流程總覽 38
4.2 環境感知與平臺適配 39
4.2.1 平臺特性與適配挑戰 39
4.2.2 環境狀態捕獲 41
4.3 提示工程 44
4.4 推理策略 47
4.4.1 規劃 47
4.4.2 動作推斷 48
4.4.3 補充輸出 48
4.5 動作執行 49
4.5.1 GUI 操作 49
4.5.2 原生 API 調用 50
4.5.3 AI 工具輔助 50
4.6 記憶管理 51
4.6.1 短期記憶:支撐運行時上下文連貫 52
4.6.2 長期記憶:沈澱經驗與跨任務泛化 52
4.7 本章小結 54
第 5 章 GUI 智能體的高級增強與自我演進 56
5.1 基於計算機視覺的 GUI 控件識別 57
5.1.1 OCR、目標檢測與控件識別 .57
5.1.2 多模態在復雜 GUI 解析中的實踐:以 OmniParser 為例 58
5.2 多智能體協作 60
5.2.1 專業化分工 60
5.2.2 智能體間協作 61
5.3 強化學習 62
5.3.1 GUI 智能體在交互式環境下的建模 62
5.3.2 基於強化學習的 GUI 智能體訓練 63
5.4 自我反思與自我進化 64
5.4.1 自我反思 64
5.4.2 自我進化 65
5.5 本章小結 67
第 3 部分:實踐案例與應用
第 6 章 大語言模型驅動的GUI 智能體框架與平臺實踐 69
6.1 網頁端 GUI 智能體 70
6.1.1 常見流程與關鍵技術 70
6.1.2 典型的網頁端 GUI 智能體示例 71
6.2 移動端 GUI 智能體 74
6.2.1 常見流程與關鍵技術 74
6.2.2 典型的移動端 GUI 智能體示例 75
6.3 桌面端 GUI 智能體 76
6.3.1 常見流程與關鍵技術 76
6.3.2 典型桌面端 GUI 智能體示例 77
6.4 跨平臺 GUI 智能體 80
6.4.1 “一次開發,多端適配”的挑戰 80
6.4.2 框架遷移與版本管理 80
6.4.3 典型跨平臺 GUI 智能體示例 81
6.5 工業界案例 82
6.5.1 Anthropic Computer Use 82
6.5.2 OpenAI Computer-UsingAgent 和 Operator 83
6.6 本章小結 85
第 7 章 GUI 智能體數據集的采集與構建 87
7.1 數據的類型與來源 88
7.2 數據采集管線 89
7.3 現有數據集案例 89
7.3.1 網頁端數據集 90
7.3.2 移動端數據集 91
7.3.3 桌面端數據集 91
7.3.4 跨平臺數據集 92
7.4 本章小結 93
第 8 章 GUI 智能體的大行動模型訓練 95
8.1 從理解到執行:大行動模型的崛起 96
8.2 不同平臺的大行動模型應用 97
8.2.1 網頁端 GUI 場景:從指令到控件操作 98
8.2.2 移動端與桌面端大行動模型的對比與關鍵技術差異 99
8.2.3 跨平臺大行動模型的融合與挑戰 101
8.3 模型訓練與微調 103
8.3.1 數據收集與準備 103
8.3.2 大行動模型訓練主流框架詳解 104
8.4 大行動模型案例分析 108
8.4.1 設計思路與架構概覽 108
8.4.2 模型訓練方法 109
8.4.3 集成部署與在線效果評估 113
8.5 本章小結 116
第 9 章 GUI 智能體評測方法與展望 117
9.1 評測體系概覽 .118
9.2 測試用例設計 .119
9.2.1 測試用例設計中的挑戰 119
9.2.2 設計原則 120
9.2.3 用例類型 121
9.3 評估指標 122
9.3.1 成功率維度 122
9.3.2 效率維度 122
9.3.3 合規性與安全性維度 123
9.3.4 穩健性維度 123
9.3.5 用戶滿意度維度 124
9.4 度量標準 124
9.4.1 文本匹配 124
9.4.2 圖像匹配 125
9.4.3 元素匹配 125
9.4.4 動作匹配 126
9.4.5 狀態校驗 126
9.5 常見評測平臺與基準集 126
9.5.1 主流評測平臺介紹 126
9.5.2 GUI 智能體評測基準示例 128
9.6 未來發展展望 .131
9.7 本章小結 132
第 10 章 詳解 WindowsGUI 智能體UFO 133
10.1 項目背景與時代意義 134
10.1.1 Windows 平臺的自動化挑戰 134
10.1.2 UFO 項目的提出與定位 134
10.2 UFO 系統總體架構 134
10.2.1 架構設計理念 134
10.2.2 核心架構流程總覽 134
10.2.3 虛擬化與安全隔離設計 135
10.2.4 多智能體協同模式 135
10.3 HostAgent:系統級編排與執行控制 136
10.3.1 模塊定位與功能概述 136
10.3.2 體系結構與主要流程 136
10.3.3 工程實現細節 137
10.3.4 有限狀態機與可靠性保障 138
10.3.5 內存管理與狀態同步機制 139
10.4 AppAgent:應用專屬智能體 139
10.4.1 模塊定位與功能概述 139
10.4.2 架構原理與工作機制 139
10.4.3 本地有限狀態機 141
10.4.4 內存管理與狀態協同 142
10.5 關鍵技術模塊詳解 142
10.5.1 混合控件檢測機制 142
10.5.2 統一 GUI-API 動作編排引擎 143
10.5.3 知識基座與持續增強機制 145
10.5.4 推測性多步動作執行優化 146
10.6 典型使用流程與案例分析 147
10.6.1 典型流程與案例解析 147
10.6.2 實踐建議與常見問題 149
10.7 本章小結 150
第 11 章 GUI 智能體的商業化落地與應用 151
11.1 GUI 智能體應用現狀概覽 152
11.2 GUI 智能體產品分析 152
11.2.1 基於網頁瀏覽器的GUI 智能體 152
11.2.2 跨平臺 GUI 智能體 154
11.2.3 中國本土化 GUI 智能體產品 156
11.3 按應用場景分類的實際落地案例 157
11.3.1 企業辦公自動化 157
11.3.2 電子商務與客戶服務 158
11.3.3 軟件開發與測試 159
11.4 實施經驗與挑戰分析 160
11.4.1 成功實施的關鍵因素 160
11.4.2 常見挑戰與解決方案 161
11.5 新興技術與未來趨勢 161
11.5.1 多智能體協作技術 161
11.5.2 無代碼 GUI 自動化平臺 162
11.5.3 行業特定解決方案 162
11.6 實施教訓與最佳實踐 162
11.6.1 從失敗案例中汲取的經驗 162
11.6.2 最佳實踐建議 163
11.7 結論與建議 .163
11.7.1 總體評估 163
11.7.2 企業應用建議 163
11.8 本章小結 164
第 4 部分:未來展望與挑戰
第 12 章 面向未來的挑戰與研究方向 166
12.1 隱私保護:桌面端智能體的核心壁壘 167
12.1.1 背景與挑戰 167
12.1.2 研究與工程應對策略 167
12.2 延遲、性能與交互流暢性 167
12.2.1 背景與挑戰 167
12.2.2 研究與工程應對策略 168
12.3 安全性與可靠性:守住自動化底線 168
12.3.1 背景與挑戰 168
12.3.2 研究與工程應對策略 168
12.4 人機協作與交互智能 169
12.4.1 背景與挑戰 169
12.4.2 研究與工程應對策略 169
12.5 個性化與用戶定制 170
12.5.1 背景與挑戰 170
12.5.2 研究與工程應對策略 170
12.6 倫理與合規治理 171
12.6.1 背景與挑戰 171
12.6.2 研究與工程應對策略 171
12.7 大規模泛化與可持續進化 171
12.7.1 背景與挑戰 171
12.7.2 研究與工程應對策略 171
12.8 本章小結 172
第 13 章 本書總結 173
13.1 內容回顧與關鍵技術總結 174
13.2 實際應用與案例啟示 174
13.3 面臨的挑戰與應對策略 174
13.4 未來研究方向與發展趨勢 174
13.5 結語 175
參考文獻 176

最後瀏覽商品 (1)