ICLRJan, 2024

离轨原始 - 对偶安全强化学习

TL;DR通过考虑成本估计的不确定性,我们提出了一种保守的策略优化方法,学习一个在满足限制条件的区域内的策略;并引入局部策略凸化方法逐渐减小估计的不确定性,以消除次优性。通过理论解释和实验证明,我们的方法在基准任务上不仅具有与最先进的同策略方法相媲美的渐近性能,而且在训练过程中显著减少了限制违规。