異策略安全約束強化學習

楊奇松,常燕,武健,李邦傑,王順宏

  • 出版商: 國防工業
  • 出版日期: 2025-07-16
  • 售價: $528
  • 貴賓價: 9.5$502
  • 語言: 簡體中文
  • ISBN: 7118137073
  • ISBN-13: 9787118137071
  • 相關分類: Reinforcement
  • 立即出貨

相關主題

商品描述

本書深入探討了強化學習在現實世界應用中面臨的安全挑戰,特別是在與不可預測環境交互時確保智能體的安全性。書中提出了基於約束的強化學習方法,區分獎勵函數與安全相關的成本函數,以實現安全與性能的平衡。分別針對安全風險控制和訓練安全保證問題,開發了相應的算法。本書不僅貢獻了相關安全強化學習算法理論,也為實踐中強化學習的安全應用提供了全面的算法支持,同時展望了元學習及無重置學習等技術,以求安全理論的進一步突破,為追求 安全、可靠的強化學習應用奠定基礎。

作者簡介

李邦傑,四川南充人,火箭軍工程大學作戰保障學院教研室主任教授、博士,主要從事導航制導與控制、導彈作戰運用等方面的教學與科研工作。
主持完成了總裝預研、技術基礎、軍內科研項目等多項課題,獲軍隊科技進步一等獎1項、二等獎2項、三等獎2項,獲軍隊教學成果獎二等獎1項,獲得授權專利7項,發表學術論文30余篇。
本書深入探討了強化學習在現實世界應用中面臨的安全挑戰,特別是在與不可預測環境交互時確保智能體的安全性。書中提出了基於約束的強化學習方法,區分獎勵函數與安全相關的成本函數,以實現安全與性能的平衡。分別針對安全風險控制和訓練安全保證問題,開發了相應的算法。本書不僅貢獻了相關安全強化學習算法理論,也為實踐中強化學習的安全應用提供了全面的算法支持,同時展望了元學習及無重置學習等技術,以求安全理論的進一步突破,為追求 安全、可靠的強化學習應用奠定基礎。

目錄大綱

第一部分 緒論
第1章 引言
1.1 安全定義及算法
1.1.1 安全約束強化學習
1.1.2 安全強化學習分類
1.1.3 測試基準環境
1.2 安全風險規避
1.3 訓練安全保證
1.4 關鍵問題
1.5 全書概覽
1.6 參考文獻
第2章 背景
2.1 約束馬爾可夫決策過程
2.2 約束最大熵強化學習
2.3 值分布強化學習
2.4 無模型狀態熵估計
2.5 參考文獻
第二部分 安全風險規避
第3章 安全強化學習
3.1 引言
3.2 風險規避問題定義
3.3 WCSAC強化學習算法
3.3.1 值分布安全評估
3.3.2 策略更新
3.3.3 完整算法
3.4 實證分析
3.5 結論
3.6 參考文獻
第4章 安全風險控制
4.1 引言
4.2 分位數回歸安全成本分布
4.2.1 基於IQN的安全評估
4.2.2 基於樣本均值的CVaR安全度量
4.2.3 完整算法
4.3 實證分析
4.3.1 SpyGame環境
4.3.2 Safety Gym環境
4.4 相關工作
4.5 結論
4.6 參考文獻
第三部分 訓練安全保證
第5章 安全遷移強化學習
5.1 引言
5.2 源任務先驗獲取
5.2.1 遷移問題設置
5.2.2 遷移度量
5.2.3 方法概覽
5.3 引導式安全探索
5.3.1 訓練安全向導
5.3.2 安全向導中的策略提煉
5.3.3 覆合采樣
5.4 實證分析
5.4.1 超參數
5.4.2 消融試驗
5.4.3 基線算法對比試驗
5.5 相關工作
5.6 結論
5.7 參考文獻
第6章 安全無監督探索
6.1 引言
6.2 任務不可知安全探索
6.3 約束熵最大化方法
6.3.1 傳統方法可行性分析
6.3.2 約束熵最大化的對偶性
6.3.3 CEM算法
6.3.4 收斂保證
6.4 實證分析
6.4.1 安全探索能力評估
6.4.2 參數敏感性
6.4.3 安全遷移學習的評估
6.5 相關工作
6.6 結論
6.7 參考文獻
第四部分 結語
第7章 結論
7.1 關鍵結論
7.2 局限和未來工作
7.3 其他應用難題
7.4 參考文獻