安全优化增强学习通过多目标策略优化

Feb, 2024

安全优化增强学习通过多目标策略优化

Safety Optimized Reinforcement Learning via Multi-Objective Policy Optimization

Homayoun Honari, Mehran Ghafarian Tamizi, Homayoun Najjaran

TL;DR基于多目标策略优化框架的新型无模型安全强化学习算法引入，通过环境奖励函数和安全评论家对策略进行优化，以实现在不违反约束条件的情况下同时达到最佳和安全性。该算法通过理论分析提出了收敛策略的安全性保障条件，并引入了一个攻击参数，允许对所述权衡进行微调。实证结果表明，与六种不同最新颖的 Safe RL 方法相比，提出的 SORL 算法在七个不同的机器人环境中显著减少了安全违规次数，并获得更高或竞争性的策略回报，在安全关键应用方面表现出明显的优越性。

Abstract

safe reinforcement learning (Safe RL) refers to a class of techniques that aim to prevent RL algorithms from violating constraints in the process of decision-making and exploration during trial and error. In this paper, a novel model-free Safe RL algorithm, formulated based on the mult

safe reinforcement learning multi-objective policy optimization safety critic tradeoff safety-critical applications

发现论文，激发创造

强化学习在具有轨迹优化的安全嵌入式马尔可夫决策过程中的应用

这项研究将强化学习与轨迹优化相结合，以管理最大化奖励与遵守安全约束之间的权衡，并在安全性出发推理阶段取得显著高奖励和几乎零安全违规的性能，通过在真实机器人任务中将盒子推动穿越障碍物来展示了该方法的实际应用性。

Oct, 2023

OmniSafe：用于加速安全强化学习研究的基础设施

本篇论文给出一个基础性安全强化学习框架，拥有不同领域跨越的一系列算法和重要的安全元素，以便更有效地研究 AI 安全和 SafeRL 算法实现。

May, 2023

安全强化学习的约束变分策略优化

该研究通过引入新的期望最大化方法，并从概率推理的角度解决问题，将安全增强学习问题分解为凸优化和监督学习两个阶段，实现了更稳定和更高效的学习表现，并在连续机器人任务的广泛实验中取得了显著的约束满足性能和样本效率提升。

Jan, 2022

安全平衡：一种用于约束多目标强化学习的框架

在涉及安全关键系统的众多强化学习问题中，平衡多个目标并同时满足严格的安全约束是一个关键挑战。为解决这个问题，我们提出了一个基于原始的框架，通过多目标学习和约束遵从性之间的策略优化来协调。我们的方法采用了一种新颖的自然策略梯度操作方法，用于优化多个强化学习目标，并克服不同任务之间冲突梯度，因为简单的加权平均梯度方向可能不利于特定任务的性能，原因在于不同任务目标的梯度不对齐。当出现硬约束违规时，我们的算法介入纠正策略以最小化违规。我们在表格设置中建立了理论收敛和约束违规保证。在具有挑战性的安全多目标强化学习任务上，我们提出的方法在实证上也优于先前最先进的方法。

May, 2024

评估基于模型无关的强化学习在安全关键任务中的应用

本研究提出了一种新的安全强化学习技术，即 Unrolling Safety Layer 方法，它通过结合安全优化和安全投影的方式来显式地强制实施硬性约束条件，该技术在学习零成本回报政策上具有良好的鲁棒性和适用性，并且实现了与算法评估的有机结合。

Dec, 2022

安全强化学习中的约束形式调查

基于约束条件的安全强化学习方法在实现安全优化代理策略方面发挥了重要作用，本研究综述了代表性约束形式以及专为每种形式设计的算法，并揭示了常见问题形式之间的数学相互关系，最后讨论了安全强化学习研究的现状和未来方向。

Feb, 2024

学习保证安全：带安全评论家的深度强化学习

为了将 RL 算法部署到实际场景中并在学习过程中确保安全性，我们提出了使用转移学习方法学习在一个任务环境中如何保持安全性，然后将所学用于约束在学习新任务时的行为，此方法在三个具有挑战性的领域中实证，相比于标准的深度 RL 技术和以前的安全 RL 方法，我们的方法不但减少了安全事故，还提高了学习的速度和稳定性。

Oct, 2020

安全和稳健的强化学习：原理和实践

通过综述方法与开放问题对最近几年来 RL 的安全和稳健性的相关研究工作进行总结，本文主要关注 RL 系统在现实场景中的安全性和稳健性挑战，探讨了算法、伦理和实践考虑等方面的主要维度以及如何增强 RL 代理的安全性和稳健性，同时讨论了环境因素和人的参与等影响因素，最后提出了一个实用的检查清单，以帮助从业者在各个应用领域负责任地部署 RL 系统。

Mar, 2024

基于已知约束函数的多能源管理系统安全强化学习

本文提出了两种新的安全强化学习方法，即 SafeFallback 和 GiveSafe，其安全约束公式与 RL 公式分离，可提供硬约束满足保证，且无需解决数学问题，从而降低计算能力要求，并具有更灵活的约束公式表述。方法可应用于超出 RL 的任何策略，同时提供硬约束保证，并在模拟多能源系统案例研究中验证了方法的有效性。

Jul, 2022

仿真机器人臂的安全强化学习

通过在 Panda 机械臂创建自定义环境，扩展安全强化学习算法的适用性，并通过与基准版本的比较表明，在满足安全约束条件的同时，受限版本能够学习到同样好的策略，但需要更长的训练时间。

Nov, 2023