基於深度強化學習的多智能體協同算法關鍵技術研究

王思穎陳文宇劉嶠

出版商: 電子科大
出版日期: 2026-02-01
售價: $516
語言: 簡體中文
頁數: 211
ISBN: 7577015776
ISBN-13: 9787577015774
相關分類: Reinforcement

下單後立即進貨 (約4週~6週)

商品描述

本書以提高多智能體強化學習協同算法的訓練效率為核心，依托多智能體粒子環境和星際爭霸II 遊戲環境等具體的應用場景，圍繞著環境信息利用不充分、模型訓練時序差分誤差較大、值分解方法表示能力不全以及離線數據集的分布偏移這四個導致訓練低效的關鍵問題展開研究。本書主要內容包括：1.針對多智能體協同算法在環境中信息利用不充分的問題，從圖網絡角度出發提出一種新的基於協同圖信息補全的多智能體協同算法；2.提出一種新的基於自適應正則Anderson 加速的多智能體協同算法；3.提出一種新的面向值函數分解的多智能體協同策略融合算法；4.提出一種面向離線多智能體強化學習的基於噪聲註入的自監督式離線數據狀態表征增強算法。本書適合相關領域研究人員閱讀參考。

目錄大綱

第一章緒論
1.1 研究內容的背景與意義
1.2 多智能體強化學習協同算法的研究現狀
1.2.1 基於通信交流決策的多智能體強化學習研究現狀
1.2.2 基於自主信息決策的多智能體強化學習研究現狀
1.3 多智能體強化學習面臨的關鍵問題
1.3.1 環境信息利用不充分的問題
1.3.2 模型新時序差分誤差較大的問題
1.3.3 值分解方法表示能力不全的問題
1.3.4 離線數據的分布偏移的問題
1.4 主要貢獻與創新
1.5 本書結構安排
第二章相關研究理論與基礎
2.1 強化學習基礎理論
2.2 強化學習基本算法
2.2.1 基於值函數的深度強化學習
2.2.2 基於Actor-Critic的深度強化學習
2.3 多智能體強化學習基礎概念
2.4 多智能體強化學習基本算法
2.4.1 獨立式學習的多智能體算法
2.4.2 集中式學習-分布式執行的多智能體算法
2.5 強化學習算法與各章節的對應關系
2.6 本章小結
第三章基於協同圖信息增強的多智能體協同算法
3.1 引言
3.2 多智能體集中式訓練算法基礎
3.2.1 中心化訓練-分布式執行框架
3.2.2 圖卷積神經網絡和註意力機制
3.3 基於協同圖信息增強的多智能體協同算法
3.3.1 算法總覽
3.3.2 基於註意力機制的歸因模塊
3.3.3 簡化加權圖模塊
3.3.4 AWGmix的具體實現步驟
3.4 實驗與結果分析
3.4.1 實驗環境介紹與參數設置
3.4.2 對比評估結果
3.4.3 消融實驗
3.5 本章小結
第四章基於自適應正則Anderson加速的多智能體協同算法
4.1 引言
4.2 Dec-POMDP與CTDE訓練框架
4.2.1 Dec-POMDP
4.2.2 CTDE框架與相關算法
4.2.3 Anderson加速及其在值疊代中的應用
4.3 多智能體場景中的RA3方法
4.3.1 聯合狀態-動作值函數中的AA
4.3.2 AA中的自適應正則化
4.3.3 RA3在多智能體強化學習算法中的具體應用步驟
4.4 實驗與結果分析
4.4.1 實驗環境介紹與參數設置