Jun, 2021

基于优势干预的安全强化学习

TL;DR提出了一个新的算法SAILR,该算法使用基于优势函数的干预机制在训练期间保持代理的安全,并使用为无约束MDP设计的现成强化学习算法来优化代理的策略。在使用实验证明了该算法在训练和部署期间都具有较强的安全性和良好的策略表现。