Apr, 2023

通过学习不良轨迹的时间模式和避免负面副作用来进行安全的 MDP 规划

TL;DR本文介绍了一种用于安全 MDP 规划的方法,它基于对状态 - 动作轨迹的安全度量,用监督学习模型学习非马尔可夫安全模式,并通过 Lagrange 乘子方法和计算图优化代理学习安全行为。实验结果表明,该方法可以满足非马尔可夫的安全约束条件,比马尔可夫 NCE 的先前最佳方法更好。