Jan, 2022

使用安全编辑策略的安全强化学习

TL;DR该研究提出了一种名为SEditor的方法,使用安全编辑器策略来解决安全强化学习问题,将不安全的动作转换为安全的动作,同时最大化约束回报和利益回报。在测试中,SEditor在高约束准则下具有突出的效果,并表现出令人满意的实用性能,甚至在障碍密集型环境下,也可以将约束违规率降低到每 2000 步仅一次。