安全强化学习的一致性可行性表征学习

ICMLMay, 2024

安全强化学习的一致性可行性表征学习

Feasibility Consistent Representation Learning for Safe Reinforcement Learning

Zhepeng Cen, Yihang Yao, Zuxin Liu, Ding Zhao

TL;DR在安全强化学习领域，通过结合表示学习和可行性导向目标，我们引入了一种名为 Feasibility Consistent Safe Reinforcement Learning（FCSRL）的新框架，以从原始状态中提取与安全相关的信息从而增强策略学习和约束估计。在多种向量状态和基于图像的任务的实证评估中，我们的方法能够学习到更好的安全感知嵌入并取得优越的性能，超过了先前的表示学习基线。

Abstract

In the field of safe reinforcement learning (RL), finding a balance between satisfying safety constraints and optimizing reward performance

safe reinforcement learning safety constraints reward performance representation learning policy learning

发现论文，激发创造

可行的演员 - 评论家算法：基于约束强化学习实现状态安全性保障

本文提出了可行行动者 - 评论家 (FAC) 算法，是第一个考虑到每个初始状态的状态安全性的无模型约束 RL 方法，通过构造基于 RL 采样的状态 Lagrange 函数并采用附加神经网络逼近状态 Lagrange 乘数，我们可以获得确保每个可行状态安全的最佳可行策略和最安全的不可行状态策略。

May, 2021

可达性约束强化学习

本文提出了基于可达性分析的 RCRL 方法来解决 CRL 中的安全约束问题，并利用可达性分析来建立新的自洽性条件以及特征化可行集。在多个基准测试中，RCRL 方法展现了优于 CRL 和安全控制基准的可行集、策略绩效和约束满足性。

May, 2022

学习的非马尔可夫安全性约束下的安全强化学习

在安全强化学习中，我们设计了一个安全模型来评估部分状态 - 动作轨迹对安全性的贡献，并使用 RL-as-inference 策略推导出了一种有效的优化安全策略的算法，最后，我们提出了一种动态调整奖励最大化与安全合规性权衡系数的方法，实证结果表明这种方法规模可扩展且能满足复杂的非 Markov 安全约束。

May, 2024

安全强化学习中的约束形式调查

基于约束条件的安全强化学习方法在实现安全优化代理策略方面发挥了重要作用，本研究综述了代表性约束形式以及专为每种形式设计的算法，并揭示了常见问题形式之间的数学相互关系，最后讨论了安全强化学习研究的现状和未来方向。

Feb, 2024

基于已知约束函数的多能源管理系统安全强化学习

本文提出了两种新的安全强化学习方法，即 SafeFallback 和 GiveSafe，其安全约束公式与 RL 公式分离，可提供硬约束满足保证，且无需解决数学问题，从而降低计算能力要求，并具有更灵活的约束公式表述。方法可应用于超出 RL 的任何策略，同时提供硬约束保证，并在模拟多能源系统案例研究中验证了方法的有效性。

Jul, 2022

可行策略迭代

本文研究安全强化学习问题，提出了一种名为可行策略迭代算法的间接安全强化学习方法，该算法通过使用一个称为约束衰减函数的可行性函数表示可行域，实现了保证策略的约束和可行性并达到优化目标。实验表明，可行策略迭代算法在经典控制任务和安全场景中能够取得更好的表现。

Apr, 2023

安全平衡：一种用于约束多目标强化学习的框架

在涉及安全关键系统的众多强化学习问题中，平衡多个目标并同时满足严格的安全约束是一个关键挑战。为解决这个问题，我们提出了一个基于原始的框架，通过多目标学习和约束遵从性之间的策略优化来协调。我们的方法采用了一种新颖的自然策略梯度操作方法，用于优化多个强化学习目标，并克服不同任务之间冲突梯度，因为简单的加权平均梯度方向可能不利于特定任务的性能，原因在于不同任务目标的梯度不对齐。当出现硬约束违规时，我们的算法介入纠正策略以最小化违规。我们在表格设置中建立了理论收敛和约束违规保证。在具有挑战性的安全多目标强化学习任务上，我们提出的方法在实证上也优于先前最先进的方法。

May, 2024

基于置信度过滤器的安全强化学习

在强化学习应用于现实系统时，确保安全是一个关键的挑战。因此，我们通过概率动力学模型提供一种基于控制理论的置信度安全过滤器方法，用于认证通过标准强化学习技术学习的名义策略的状态安全约束条件，将安全验证降低到标准强化学习任务。利用幻想输入的概念，我们将这种方法扩展到确定对未知系统具有高概率安全的 “备份” 策略。最后，在朝向备份策略的滚动过程中，每个时间步骤最小调整名义策略，以保证安全恢复。我们提供了正式的安全保证，并在实验中证明了我们方法的有效性。

Jul, 2022

安全强化学习中的迭代可达性估计

确保安全对于强化学习的实际部署非常重要。我们提出了一个新的框架，用于在一般的随机环境中进行安全约束的强化学习。我们的算法在最优化奖励的同时保持持续的安全特性，通过最小化累积折扣违规行为来产生最安全的行为，并基于可达性估计来优化我们提出的框架。我们在多个安全强化学习环境上评估了该方法，并与当前最先进的基准方法进行了比较，结果显示了在提高奖励性能和安全性方面的优势。

Sep, 2023

基于状态的安全强化学习：一项调查

本文综述了在强化学习中解决状态限制问题的现存方法并比较了它们在安全性、可伸缩性、奖励表现等方面的差异和权衡，同时总结了当前方法的局限性并探讨了未来的研究方向。

Feb, 2023