AutoCost：进化内在代价的零违规强化学习

Jan, 2023

AutoCost：进化内在代价的零违规强化学习

AutoCost: Evolving Intrinsic Cost for Zero-violation Reinforcement Learning

Tairan He, Weiye Zhao, Changliu Liu

TL;DR本文提出了 AutoCost 框架，并在 Safety Gym 上进行了验证，结果表明其在 constrained RL 中实现了零违规性能，同时与基线有可比性的表现。

Abstract

safety is a critical hurdle that limits the application of deep reinforcement learning (RL) to real-world control tasks. To this end, constrained reinforcement learning leverages cost functions to improve safety

deep reinforcement learning constrained reinforcement learning cost function safety autocost

发现论文，激发创造

限制下的强化学习中的反馈安全性

在安全关键的强化学习环境中，通过引入额外的成本函数来确保智能体安全行为的方法优于修改奖励函数的繁琐任务。然而，设计或评估这样的成本函数可能会非常昂贵。为了应对这个问题，我们提出一种可以在复杂环境中扩展并得到超越状态级反馈的方法，从而减轻评估者的负担。我们引入了一种替代目标，通过将问题转化为带有噪声标记的状态级监督分类任务，从而解决了根据轨迹级反馈为各个状态分配信用的挑战。此外，由于无法对智能体生成的每个轨迹收集反馈，我们提出了一种基于新颖性的采样方法，只有当智能体遇到 “新颖” 的轨迹时才会选择性地引入评估者。我们通过在多个基准安全训练场和现实自动驾驶场景中进行实验证明了我们方法的效率。

Jun, 2024

学习的非马尔可夫安全性约束下的安全强化学习

在安全强化学习中，我们设计了一个安全模型来评估部分状态 - 动作轨迹对安全性的贡献，并使用 RL-as-inference 策略推导出了一种有效的优化安全策略的算法，最后，我们提出了一种动态调整奖励最大化与安全合规性权衡系数的方法，实证结果表明这种方法规模可扩展且能满足复杂的非 Markov 安全约束。

May, 2024

模仿优秀，避免恶劣：安全强化学习的增量方法

通过模仿学习和轨迹标记的方法，解决强化学习中的约束问题，并在实验中展示了其优越性能。

Dec, 2023

通过验证任务级别属性提供安全的深度强化学习

本文介绍了一种使用 “违规指标” 来惩罚无法确保安全的状态，从而更好地实现安全深度强化学习的方法，并在机器人地图导航任务中进行了实验研究，结果表明相较于进行 Safe DRL 的基线策略，使用违规指标的策略在性能上有了更好的表现，且能够大幅减少访问不安全状态的数量。

Feb, 2023

一种基于李亚普诺夫函数的安全强化学习方法

提出了一种基于 Lyapunov 方法的安全强化学习算法，该算法可在保证行为策略安全的前提下，有效地平衡约束满足和性能优化。

May, 2018

基于已知约束函数的多能源管理系统安全强化学习

本文提出了两种新的安全强化学习方法，即 SafeFallback 和 GiveSafe，其安全约束公式与 RL 公式分离，可提供硬约束满足保证，且无需解决数学问题，从而降低计算能力要求，并具有更灵活的约束公式表述。方法可应用于超出 RL 的任何策略，同时提供硬约束保证，并在模拟多能源系统案例研究中验证了方法的有效性。

Jul, 2022

零或有界约束违规的约束马尔可夫决策过程策略学习

本文探讨了在强化学习过程中如何确保系统安全，并提出了一种基于 Markov 决策过程的算法，通过乐观悲观原则实现了安全探索和奖励控制，使系统在保证零约束违规的前提下，获得可观的奖励表现。

Jun, 2021

基于灵活约束的层次强化学习优化

该论文主要研究通过约束条件解决具有复杂安全约束的长期决策问题，提出了一种结合高级有约束规划代理和低级目标条件强化学习代理的机制，能够处理成本分布的约束，并在实验中验证了其实用性。

Feb, 2023

马尔科夫决策过程的安全约束强化学习

该论文研究了针对随机和部分未知环境下控制器综合的相关问题，并提出了一种基于安全的 Markov 决策过程的解决方案，并利用迭代学习过程来实现安全性和最优性的权衡。

Oct, 2015

安全的即时约束强化学习：激进探索的作用

该研究考察了具有线性函数逼近和在每一步都具有严格瞬时约束条件下的安全强化学习（safe RL）。本文提出了一种算法 LSVI-AE，针对成本函数是线性的情况，达到了 $\tilde {\cO}(\sqrt {d^3H^4K})$ 的遗憾值和 $\tilde {\cO}(H \sqrt {dK})$ 的严格约束违规值；针对成本函数属于 Reproducing Kernel Hilbert Space 的情况，达到了 $\cO (H\gamma_K \sqrt {K})$ 的严格约束违规值。这些结果达到了对学习时间长度 $K$ 的最优依赖，与本文提供的下界相匹配，展示了 LSVI-AE 的高效性。其中，我们的方法设计鼓励积极的策略探索，提供了对具有一般成本函数和无关先前安全动作的安全 RL 的独特视角，可能具有独立的研究价值。

Dec, 2023