Oct, 2020

学习保证安全:带安全评论家的深度强化学习

TL;DR为了将 RL 算法部署到实际场景中并在学习过程中确保安全性,我们提出了使用转移学习方法学习在一个任务环境中如何保持安全性,然后将所学用于约束在学习新任务时的行为,此方法在三个具有挑战性的领域中实证,相比于标准的深度 RL 技术和以前的安全 RL 方法,我们的方法不但减少了安全事故,还提高了学习的速度和稳定性。