May, 2018

学习带有专业指导的安全策略

TL;DR提出一种用于确保强化学习智能体在奖励函数难以指定的情况下保持安全行为的框架,该框架依赖于来自专家策略的演示,并提供了一个理论框架,以优化智能体在现有知识一致的奖励空间中。我们提出了两种方法来解决产生的优化问题:一种是基于精确椭球方法,另一种是基于 “跟随扰动领导者” 算法的方法。我们的实验证明了我们算法在离散和连续问题中的行为,训练出来的智能体在模仿专家行为的同时安全地避免了具有潜在负面影响的状态。