ICMLJun, 2021

基于优势干预的安全强化学习

TL;DR提出了一个新的算法 SAILR,该算法使用基于优势函数的干预机制在训练期间保持代理的安全,并使用为无约束 MDP 设计的现成强化学习算法来优化代理的策略。在使用实验证明了该算法在训练和部署期间都具有较强的安全性和良好的策略表现。