constrained rl algorithms | BriefGPT

关键词constrained rl algorithms

搜索结果 - 1

利用近似模型防护在连续环境中实现概率安全保证
本文介绍了在连续环境中实现安全强化学习的方法，使用了适用于连续环境的近似基于模型的屏蔽 (AMBS) 框架，并提出了两种新的惩罚技术来改进策略梯度的稳定收敛性。
PDF5 months ago