基於深度強化學習的多智能體協同算法關鍵技術研究

王思穎 陳文宇 劉嶠

  • 出版商: 電子科大
  • 出版日期: 2026-02-01
  • 售價: $516
  • 語言: 簡體中文
  • 頁數: 211
  • ISBN: 7577015776
  • ISBN-13: 9787577015774
  • 相關分類: Reinforcement
  • 下單後立即進貨 (約4週~6週)

商品描述

本書以提高多智能體強化學習協同算法的訓練 效率為核心,依托多智能體粒子環境和星際爭霸II 遊戲環境等具體的應用場景,圍繞著環境信息利用 不充分、模型訓練時序差分誤差較大、值分解方法 表示能力不全以及離線數據集的分布偏移這四個導 致訓練低效的關鍵問題展開研究。 本書主要內容包括:1.針對多智能體協同算法 在環境中信息利用不充分的問題,從圖網絡角度出 發提出一種新的基於協同圖信息補全的多智能體協 同算法;2.提出一種新的基於自適應正則Anderson 加速的多智能體協同算法;3.提出一種新的面向值 函數分解的多智能體協同策略融合算法;4.提出一 種面向離線多智能體強化學習的基於噪聲註入的自 監督式離線數據狀態表征增強算法。 本書適合相關領域研究人員閱讀參考。

目錄大綱

第一章 緒論
1.1 研究內容的背景與意義
1.2 多智能體強化學習協同算法的研究現狀
1.2.1 基於通信交流決策的多智能體強化學習研究現狀
1.2.2 基於自主信息決策的多智能體強化學習研究現狀
1.3 多智能體強化學習面臨的關鍵問題
1.3.1 環境信息利用不充分的問題
1.3.2 模型 新時序差分誤差較大的問題
1.3.3 值分解方法表示能力不全的問題
1.3.4 離線數據的分布偏移的問題
1.4 主要貢獻與創新
1.5 本書結構安排
第二章 相關研究理論與基礎
2.1 強化學習基礎理論
2.2 強化學習基本算法
2.2.1 基於值函數的深度強化學習
2.2.2 基於Actor-Critic的深度強化學習
2.3 多智能體強化學習基礎概念
2.4 多智能體強化學習基本算法
2.4.1 獨立式學習的多智能體算法
2.4.2 集中式學習-分布式執行的多智能體算法
2.5 強化學習算法與各章節的對應關系
2.6 本章小結
第三章 基於協同圖信息增強的多智能體協同算法
3.1 引言
3.2 多智能體集中式訓練算法基礎
3.2.1 中心化訓練-分布式執行框架
3.2.2 圖卷積神經網絡和註意力機制
3.3 基於協同圖信息增強的多智能體協同算法
3.3.1 算法總覽
3.3.2 基於註意力機制的歸因模塊
3.3.3 簡化加權圖模塊
3.3.4 AWGmix的具體實現步驟
3.4 實驗與結果分析
3.4.1 實驗環境介紹與參數設置
3.4.2 對比評估結果
3.4.3 消融實驗
3.5 本章小結
第四章 基於自適應正則Anderson加速的多智能體協同算法
4.1 引言
4.2 Dec-POMDP與CTDE訓練框架
4.2.1 Dec-POMDP
4.2.2 CTDE框架與相關算法
4.2.3 Anderson加速及其在值疊代中的應用
4.3 多智能體場景中的RA3方法
4.3.1 聯合狀態-動作值函數中的AA
4.3.2 AA中的自適應正則化
4.3.3 RA3在多智能體強化學習算法中的具體應用步驟
4.4 實驗與結果分析
4.4.1 實驗環境介紹與參數設置