Jun, 2024

限制下的强化学习中的反馈安全性

TL;DR在安全关键的强化学习环境中,通过引入额外的成本函数来确保智能体安全行为的方法优于修改奖励函数的繁琐任务。然而,设计或评估这样的成本函数可能会非常昂贵。为了应对这个问题,我们提出一种可以在复杂环境中扩展并得到超越状态级反馈的方法,从而减轻评估者的负担。我们引入了一种替代目标,通过将问题转化为带有噪声标记的状态级监督分类任务,从而解决了根据轨迹级反馈为各个状态分配信用的挑战。此外,由于无法对智能体生成的每个轨迹收集反馈,我们提出了一种基于新颖性的采样方法,只有当智能体遇到 “新颖” 的轨迹时才会选择性地引入评估者。我们通过在多个基准安全训练场和现实自动驾驶场景中进行实验证明了我们方法的效率。