Aug, 2021

学习屏障证明:朝着零训练时间违规的安全强化学习

TL;DR本文提出了一种名为 CRABS 的算法,通过学习屏障证书、动态模型和策略来实现 RL 的安全性,该算法在只有安全但微不足道的奖励初始策略的情况下,无需任何先前的知识和离线数据实现训练时零安全违规,经实证模拟表明,在状态空间仅为 2-4 维的简单环境中,该算法可以做到零安全违规。