SCPO: 带安全评论家策略优化的安全强化学习

Nov, 2023

SCPO: 带安全评论家策略优化的安全强化学习

SCPO: Safe Reinforcement Learning with Safety Critic Policy Optimization

Jaafar Mhamed, Shangding Gu

TL;DR本研究介绍了一种新的安全强化学习算法（Safety Critic Policy Optimization，SCPO），通过引入安全评判机制，该算法能够自动平衡遵守安全限制和最大化奖励之间的权衡，并在实证验证中证明了其有效性。

Abstract

Incorporating safety is an essential prerequisite for broadening the practical applications of reinforcement learning in real-world scenarios. To tackle this challenge, →

safety reinforcement learning constrained markov decision processes lagrangian relaxation technique safety critic policy optimization

发现论文，激发创造

各州受限制的政策优化

State-wise Constrained Policy Optimization (SCPO) 是第一个面向状态限制的强化学习通用策略搜索算法，通过引入最大马尔科夫决策过程的框架，证明在期望下满足状态限制，并通过在高维机器人任务中的有效性证明显示 SCPO 显著优于现有方法。

Jun, 2023

一种基于李亚普诺夫函数的安全强化学习方法

提出了一种基于 Lyapunov 方法的安全强化学习算法，该算法可在保证行为策略安全的前提下，有效地平衡约束满足和性能优化。

May, 2018

带安全约束的保守分布式强化学习

本文提出了一种名为约束保守分布最大后验策略优化（CDMPO）的离线强化学习算法用于安全探索中的约束决策问题，其中利用分布式强化学习方法准确估计 Q 函数和 C 函数，并利用保守的价值函数损失来减少违反约束的次数，同时使用加权平均比例积分微分（WAPID）来稳定更新拉格朗日乘子，在实验中表现出更好的风险控制能力。

Jan, 2022

受限马尔可夫决策过程中安全的强化学习

该研究提出了一种名为 SNO-MDP 的算法，它可以在未知安全约束条件下探索和优化马尔可夫决策过程，通过扩展安全区域来学习安全约束条件，进而在已认证的安全区域内优化累积奖励。通过两个实验展示了该算法的有效性。

Aug, 2020

利用额外安全预算在受限策略优化中进行高效探索

本文提出了一种 ESB-CPO 算法，通过在早期阶段增加额外的安全预算来平衡探索和约束，以提高过程的效率，证明其在保证安全性的基础上能够显著提高性能。

Feb, 2023

基于 Lyapunov 的连续控制安全策略优化

本研究利用 Lyapunov 方法，构建了基于约束的马尔可夫决策过程（CMDP）模型，并使用深度确定性策略梯度（DDPG）或近端策略优化（PPO）等标准策略梯度方法进行训练，通过将策略参数或动作投影到由状态相关线性化 Lyapunov 约束引起的可行解集合上，以实现策略的近似约束满足，并且实现了较少保守的策略更新，针对数个模拟（MuJoCo）任务以及实际室内机器人导航问题的评估表明了我们算法的有效性，同时具有较高的数据利用效率。

Jan, 2019

CRPO：一种具有收敛保证的安全强化学习新方法

提出了利用 CRPO 算法框架进行 SRL 问题求解的原始方法，使用自然策略梯度方法，并以全局优化策略为目标，最终达到 1 / 根号 T 的收敛速率和错误边界。

Nov, 2020

马尔科夫决策过程的安全约束强化学习

该论文研究了针对随机和部分未知环境下控制器综合的相关问题，并提出了一种基于安全的 Markov 决策过程的解决方案，并利用迭代学习过程来实现安全性和最优性的权衡。

Oct, 2015

具有随机停止时间的约束马尔可夫决策过程的安全增强学习

我们提出了一种基于在线强化学习算法的约束马尔可夫决策过程，其中包含一个安全约束。通过线性规划算法，我们演示了学习到的策略在很高的置信度下是安全的。我们还提出了计算安全基准策略的方法，并演示了该算法的有效性。同时，我们通过定义状态空间的子集，称为代理集，实现了高效的探索。

Mar, 2024

安全关键强化学习的概率约束

本文探讨了在概率受限制的强化学习中学习安全策略的问题，并提出了两种算法 ——Safe Policy Gradient-REINFORCE 和 SPG-Actor-Critic 以及 Safe Primal-Dual 算法来解决。通过实验，验证了这些方法的有效性和优越性。

Jun, 2023