可达性约束强化学习

ICMLMay, 2022

Reachability Constrained Reinforcement Learning

Dongjie Yu, Haitong Ma, Shengbo Eben Li, Jianyu Chen

TL;DR本文提出了基于可达性分析的 RCRL 方法来解决 CRL 中的安全约束问题，并利用可达性分析来建立新的自洽性条件以及特征化可行集。在多个基准测试中，RCRL 方法展现了优于 CRL 和安全控制基准的可行集、策略绩效和约束满足性。

Abstract

constrained reinforcement learning (CRL) has gained significant interest recently, since safety constraints satisfaction is critical for real-world problems. However, existing CRL methods constraining discounted

constrained reinforcement learning safety constraints feasible sets reachability analysis policy performance

发现论文，激发创造

安全强化学习的一致性可行性表征学习

在安全强化学习领域，通过结合表示学习和可行性导向目标，我们引入了一种名为 Feasibility Consistent Safe Reinforcement Learning（FCSRL）的新框架，以从原始状态中提取与安全相关的信息从而增强策略学习和约束估计。在多种向量状态和基于图像的任务的实证评估中，我们的方法能够学习到更好的安全感知嵌入并取得优越的性能，超过了先前的表示学习基线。

May, 2024

可行的演员 - 评论家算法：基于约束强化学习实现状态安全性保障

本文提出了可行行动者 - 评论家 (FAC) 算法，是第一个考虑到每个初始状态的状态安全性的无模型约束 RL 方法，通过构造基于 RL 采样的状态 Lagrange 函数并采用附加神经网络逼近状态 Lagrange 乘数，我们可以获得确保每个可行状态安全的最佳可行策略和最安全的不可行状态策略。

May, 2021

基于灵活约束的层次强化学习优化

该论文主要研究通过约束条件解决具有复杂安全约束的长期决策问题，提出了一种结合高级有约束规划代理和低级目标条件强化学习代理的机制，能够处理成本分布的约束，并在实验中验证了其实用性。

Feb, 2023

安全强化学习中的约束形式调查

基于约束条件的安全强化学习方法在实现安全优化代理策略方面发挥了重要作用，本研究综述了代表性约束形式以及专为每种形式设计的算法，并揭示了常见问题形式之间的数学相互关系，最后讨论了安全强化学习研究的现状和未来方向。

Feb, 2024

安全强化学习中的迭代可达性估计

确保安全对于强化学习的实际部署非常重要。我们提出了一个新的框架，用于在一般的随机环境中进行安全约束的强化学习。我们的算法在最优化奖励的同时保持持续的安全特性，通过最小化累积折扣违规行为来产生最安全的行为，并基于可达性估计来优化我们提出的框架。我们在多个安全强化学习环境上评估了该方法，并与当前最先进的基准方法进行了比较，结果显示了在提高奖励性能和安全性方面的优势。

Sep, 2023

基于已知约束函数的多能源管理系统安全强化学习

本文提出了两种新的安全强化学习方法，即 SafeFallback 和 GiveSafe，其安全约束公式与 RL 公式分离，可提供硬约束满足保证，且无需解决数学问题，从而降低计算能力要求，并具有更灵活的约束公式表述。方法可应用于超出 RL 的任何策略，同时提供硬约束保证，并在模拟多能源系统案例研究中验证了方法的有效性。

Jul, 2022

可行策略迭代

本文研究安全强化学习问题，提出了一种名为可行策略迭代算法的间接安全强化学习方法，该算法通过使用一个称为约束衰减函数的可行性函数表示可行域，实现了保证策略的约束和可行性并达到优化目标。实验表明，可行策略迭代算法在经典控制任务和安全场景中能够取得更好的表现。

Apr, 2023

密度受限制强化学习

该论文从将约束直接设置在状态密度函数上的新角度对受限强化学习进行了研究，提出了一种基于密度约束的强化学习算法并证明其收敛到近似最优解。

Jun, 2021

学习的非马尔可夫安全性约束下的安全强化学习

在安全强化学习中，我们设计了一个安全模型来评估部分状态 - 动作轨迹对安全性的贡献，并使用 RL-as-inference 策略推导出了一种有效的优化安全策略的算法，最后，我们提出了一种动态调整奖励最大化与安全合规性权衡系数的方法，实证结果表明这种方法规模可扩展且能满足复杂的非 Markov 安全约束。

May, 2024

基于障碍函数的端到端安全强化学习在安全关键型连续控制任务中的应用

本文提出了一种控制器架构，该架构将模型自由的强化学习控制器与利用控制屏障函数和未知系统动态的模型控制器相结合，以确保学习过程中的安全，并利用高斯过程对系统动态进行建模和不确定性分析。

Mar, 2019