Feb, 2024

多约束安全强化学习与目标抑制在安全关键应用中的应用

TL;DR通过适应性抑制任务奖励最大化目标的方法,我们提出了目标抑制(Objective Suppression)的创新方法,以解决具有多个约束的安全强化学习任务所面临的挑战,在两个多约束安全领域进行了基准测试,包括一个自动驾驶领域,其中任何不正确的行为都可能导致灾难性后果,实证上,我们证明了我们提出的方法与现有的安全强化学习算法相结合,可以在显著减少约束违规的情况下实现与我们基线的任务奖励相匹配的结果。