May, 2023

从未知奖励的演示中学习安全约束

TL;DR该研究提出了凸约束学习用于强化学习的方法,该方法通过安全演示从具有可能不同奖励函数的共享约束中推断出受约束马尔可夫决策过程(CMDP)中的约束。与以往的方法不同,该方法可以从具有不同未知奖励的演示中学习约束并构建一个凸安全集,从而保证安全性,即使这些安全演示可能是次优的。该方法在表格环境和多个约束条件的连续驾驶模拟中得到了评估,并证明了可以学到安全行驶行为并且可以转移到不同的任务和环境中。