AutoCost:进化内在代价的零违规强化学习
在安全关键的强化学习环境中,通过引入额外的成本函数来确保智能体安全行为的方法优于修改奖励函数的繁琐任务。然而,设计或评估这样的成本函数可能会非常昂贵。为了应对这个问题,我们提出一种可以在复杂环境中扩展并得到超越状态级反馈的方法,从而减轻评估者的负担。我们引入了一种替代目标,通过将问题转化为带有噪声标记的状态级监督分类任务,从而解决了根据轨迹级反馈为各个状态分配信用的挑战。此外,由于无法对智能体生成的每个轨迹收集反馈,我们提出了一种基于新颖性的采样方法,只有当智能体遇到 “新颖” 的轨迹时才会选择性地引入评估者。我们通过在多个基准安全训练场和现实自动驾驶场景中进行实验证明了我们方法的效率。
Jun, 2024
在安全强化学习中,我们设计了一个安全模型来评估部分状态 - 动作轨迹对安全性的贡献,并使用 RL-as-inference 策略推导出了一种有效的优化安全策略的算法,最后,我们提出了一种动态调整奖励最大化与安全合规性权衡系数的方法,实证结果表明这种方法规模可扩展且能满足复杂的非 Markov 安全约束。
May, 2024
本文介绍了一种使用 “违规指标” 来惩罚无法确保安全的状态,从而更好地实现安全深度强化学习的方法,并在机器人地图导航任务中进行了实验研究,结果表明相较于进行 Safe DRL 的基线策略,使用违规指标的策略在性能上有了更好的表现,且能够大幅减少访问不安全状态的数量。
Feb, 2023
本文提出了两种新的安全强化学习方法,即 SafeFallback 和 GiveSafe,其安全约束公式与 RL 公式分离,可提供硬约束满足保证,且无需解决数学问题,从而降低计算能力要求,并具有更灵活的约束公式表述。方法可应用于超出 RL 的任何策略,同时提供硬约束保证,并在模拟多能源系统案例研究中验证了方法的有效性。
Jul, 2022
本文探讨了在强化学习过程中如何确保系统安全,并提出了一种基于 Markov 决策过程的算法,通过乐观悲观原则实现了安全探索和奖励控制,使系统在保证零约束违规的前提下,获得可观的奖励表现。
Jun, 2021
该论文主要研究通过约束条件解决具有复杂安全约束的长期决策问题,提出了一种结合高级有约束规划代理和低级目标条件强化学习代理的机制,能够处理成本分布的约束,并在实验中验证了其实用性。
Feb, 2023
该论文研究了针对随机和部分未知环境下控制器综合的相关问题,并提出了一种基于安全的 Markov 决策过程的解决方案,并利用迭代学习过程来实现安全性和最优性的权衡。
Oct, 2015
该研究考察了具有线性函数逼近和在每一步都具有严格瞬时约束条件下的安全强化学习(safe RL)。本文提出了一种算法 LSVI-AE,针对成本函数是线性的情况,达到了 $\tilde {\cO}(\sqrt {d^3H^4K})$ 的遗憾值和 $\tilde {\cO}(H \sqrt {dK})$ 的严格约束违规值;针对成本函数属于 Reproducing Kernel Hilbert Space 的情况,达到了 $\cO (H\gamma_K \sqrt {K})$ 的严格约束违规值。这些结果达到了对学习时间长度 $K$ 的最优依赖,与本文提供的下界相匹配,展示了 LSVI-AE 的高效性。其中,我们的方法设计鼓励积极的策略探索,提供了对具有一般成本函数和无关先前安全动作的安全 RL 的独特视角,可能具有独立的研究价值。
Dec, 2023