Oct, 2023

使用硬约束进行连续控制的简化策略优化

TL;DR近期有关约束强化学习的研究进展为强化学习提供了一定的安全性保证。本文介绍了一种将 RL 与 GRG 相结合的减少策略优化算法 (RPO),用于处理存在非凸硬约束条件的连续控制任务。通过将动作分为基本动作和非基本动作,RPO 算法采用了 GRG 的方法生成基本动作,并通过等式约束求解得到非基本动作。另外,还引入了基于减少梯度的动作投影过程,并应用改进的拉格朗日松弛技术来确保不等式约束得到满足。此外,为了解决目前缺乏复杂硬约束环境的问题,我们开发了三个新的基准测试任务:两个机器人操作任务和一个智能电网运行控制任务。通过这些基准测试,RPO 算法在累积奖励和约束违规方面显示出比之前的约束强化学习算法更好的性能。我们相信 RPO 算法及其新的基准测试将为将 RL 应用于具有复杂约束的现实问题打开新的机遇。