異策略安全約束強化學習

楊奇松,常燕,武健,李邦傑,王順宏

  • 出版商: 國防工業
  • 出版日期: 2025-07-16
  • 售價: $528
  • 語言: 簡體中文
  • ISBN: 7118137073
  • ISBN-13: 9787118137071
  • 相關分類: Reinforcement
  • 下單後立即進貨 (約4週~6週)

相關主題

商品描述

本書深入探討了強化學習在現實世界應用中面臨的安全挑戰,特別是在與不可預測環境交互時確保智能體的安全性。書中提出了基於約束的強化學習方法,區分獎勵函數與安全相關的成本函數,以實現安全與性能的平衡。分別針對安全風險控制和訓練安全保證問題,開發了相應的算法。本書不僅貢獻了相關安全強化學習算法理論,也為實踐中強化學習的安全應用提供了全面的算法支持,同時展望了元學習及無重置學習等技術,以求安全理論的進一步突破,為追求 安全、可靠的強化學習應用奠定基礎。

作者簡介

李邦傑,四川南充人,火箭軍工程大學作戰保障學院教研室主任教授、博士,主要從事導航制導與控制、導彈作戰運用等方面的教學與科研工作。
主持完成了總裝預研、技術基礎、軍內科研項目等多項課題,獲軍隊科技進步一等獎1項、二等獎2項、三等獎2項,獲軍隊教學成果獎二等獎1項,獲得授權專利7項,發表學術論文30余篇。
本書深入探討了強化學習在現實世界應用中面臨的安全挑戰,特別是在與不可預測環境交互時確保智能體的安全性。書中提出了基於約束的強化學習方法,區分獎勵函數與安全相關的成本函數,以實現安全與性能的平衡。分別針對安全風險控制和訓練安全保證問題,開發了相應的算法。本書不僅貢獻了相關安全強化學習算法理論,也為實踐中強化學習的安全應用提供了全面的算法支持,同時展望了元學習及無重置學習等技術,以求安全理論的進一步突破,為追求 安全、可靠的強化學習應用奠定基礎。