多约束安全增强学习的梯度塑形

Dec, 2023

Gradient Shaping for Multi-Constraint Safe Reinforcement Learning

Yihang Yao, Zuxin Liu, Zhepeng Cen, Peide Huang, Tingnan Zhang...

TL;DR利用多目标优化（MOO）的统一框架来解决复杂的多约束（MC）安全强化学习（safe RL）问题，通过操纵约束条件的梯度，引入梯度塑形（GradS）方法来改善训练效率，实验证明该方法在各种具有挑战性的 MC 安全 RL 任务中提高了探索性和学习策略的效果，同时对约束数量的扩展性表现良好。

Abstract

online safe reinforcement learning (RL) involves training a policy that maximizes task efficiency while satisfying constraints via interacting with the environments. In this paper, our focus lies in addressing the complex challenges associated with solving multi-constraint (MC) safe RL

online safe reinforcement learning multi-constraint safe rl multi-objective optimization gradient shaping lagrangian-based safe rl

发现论文，激发创造

安全平衡：一种用于约束多目标强化学习的框架

在涉及安全关键系统的众多强化学习问题中，平衡多个目标并同时满足严格的安全约束是一个关键挑战。为解决这个问题，我们提出了一个基于原始的框架，通过多目标学习和约束遵从性之间的策略优化来协调。我们的方法采用了一种新颖的自然策略梯度操作方法，用于优化多个强化学习目标，并克服不同任务之间冲突梯度，因为简单的加权平均梯度方向可能不利于特定任务的性能，原因在于不同任务目标的梯度不对齐。当出现硬约束违规时，我们的算法介入纠正策略以最小化违规。我们在表格设置中建立了理论收敛和约束违规保证。在具有挑战性的安全多目标强化学习任务上，我们提出的方法在实证上也优于先前最先进的方法。

May, 2024

安全强化学习中平衡奖励与安全性优化：梯度操控视角

利用梯度操作理论解决强化学习中奖励和安全之间的冲突，通过提出一种软切换策略优化方法实现奖励和安全的平衡，进而提供一个安全强化学习框架。

May, 2024

安全关键强化学习的概率约束

本文探讨了在概率受限制的强化学习中学习安全策略的问题，并提出了两种算法 ——Safe Policy Gradient-REINFORCE 和 SPG-Actor-Critic 以及 Safe Primal-Dual 算法来解决。通过实验，验证了这些方法的有效性和优越性。

Jun, 2023

安全强化学习的收敛策略优化

本研究探讨了安全强化学习问题与非线性函数逼近的关系，将策略优化作为同时考虑目标与限制的非凸问题，通过构建一系列局部替换非凸函数为凸二次函数的约束优化问题，证明了对这些问题求解，其解会收敛于原问题的稳定点；进一步将该算法应用于优化控制和多智能体安全强化学习问题，扩展了理论研究的范围。

Oct, 2019

多能源管理系统的自我完善硬约束条件下安全的强化学习

本文介绍了两项新的安全强化学习方法，OptLayerPolicy 和 self-improving hard constraints，将约束函数与 RL 形式解耦，以提高初始效用和准确性，提供了在模拟的多能源系统案例研究中实现 92.4%（OptLayerPolicy）的初始效用和 104.9%（GreyOptLayerPolicy）的策略的结果。

Apr, 2023

安全强化学习中的约束形式调查

基于约束条件的安全强化学习方法在实现安全优化代理策略方面发挥了重要作用，本研究综述了代表性约束形式以及专为每种形式设计的算法，并揭示了常见问题形式之间的数学相互关系，最后讨论了安全强化学习研究的现状和未来方向。

Feb, 2024

基于已知约束函数的多能源管理系统安全强化学习

本文提出了两种新的安全强化学习方法，即 SafeFallback 和 GiveSafe，其安全约束公式与 RL 公式分离，可提供硬约束满足保证，且无需解决数学问题，从而降低计算能力要求，并具有更灵活的约束公式表述。方法可应用于超出 RL 的任何策略，同时提供硬约束保证，并在模拟多能源系统案例研究中验证了方法的有效性。

Jul, 2022

安全强化学习的约束变分策略优化

该研究通过引入新的期望最大化方法，并从概率推理的角度解决问题，将安全增强学习问题分解为凸优化和监督学习两个阶段，实现了更稳定和更高效的学习表现，并在连续机器人任务的广泛实验中取得了显著的约束满足性能和样本效率提升。

Jan, 2022

约束多目标强化学习的尺度不变梯度聚集

多目标强化学习中，为了满足预定义的约束条件，我们提出了一种新的算法 CoMOGA，将原始的约束优化问题转化为带有附加约束的优化问题，并确保转换后的约束与原始目标具有相同效果并不依赖于目标尺度。经实证评估，该方法在满足约束和保持目标尺度不变方面优于其他基线模型。

Mar, 2024

使用不匹配约束策略加速安全强化学习

提出一种迭代策略优化算法以安全地学习来自基准策略的强化学习问题，其中基准策略可以来自示范数据或教师代理，并且需要满足一组由安全性、公平性或其他特定应用需求编码的约束条件。在控制任务上的实验中，该算法始终优于多个最先进的基线算法，并在平均回报上提高了 40％，约 10 倍少的约束违规行为。

Jun, 2020