Oct, 2023

强化学习中的安全探索:广义形式与算法

TL;DR在本篇论文中,我们提出了一个名为广义安全探索(GSE)的问题,并使用元算法MASE解决了这个问题,该算法结合了无限制的强化学习算法和不确定性量化器,以确保当前回合的安全性,同时在实际安全违规之前对不安全的探索进行适当的惩罚,以防止它们在未来回合中发生。MASE算法的优势在于我们可以在合理假设下优化策略,同时以很高的概率保证不违反任何安全约束。最后,我们演示了我们提出的算法在方格世界和Safety Gym基准测试上取得了比现有算法更好的性能,且即使在训练过程中也没有违反任何安全约束。