Feb, 2023

通过验证任务级别属性提供安全的深度强化学习

TL;DR本文介绍了一种使用 “违规指标” 来惩罚无法确保安全的状态,从而更好地实现安全深度强化学习的方法,并在机器人地图导航任务中进行了实验研究,结果表明相较于进行 Safe DRL 的基线策略,使用违规指标的策略在性能上有了更好的表现,且能够大幅减少访问不安全状态的数量。