一种保守的更新策略算法，用于安全强化学习

Feb, 2022

一种保守的更新策略算法，用于安全强化学习

CUP: A Conservative Update Policy Algorithm for Safe Reinforcement Learning

Long Yang, Jiaming Ji, Juntao Dai, Yu Zhang, Pengfei Li...

TL;DR本文提出了一种基于保守策略更新和理论安全保障的 CUP 算法，并将其与新提出的性能上限和替代函数相结合。在此基础上，文章扩展了替代函数的理论分析，提供了更紧的性能上限，同时基于 GAE 设计了实现更高效的 CUP，最终实验证明了该算法的有效性及其源代码。

Abstract

safe reinforcement learning (RL) is still very challenging since it requires the agent to consider both return maximization and safe exploration. In this paper, we propose CUP, a conservative update policy algori

safe reinforcement learning conservative update policy surrogate functions generalized advantage estimator performance bounds

发现论文，激发创造

安全策略优化的约束更新投影方法

提出了一种基于限制更新投影框架的新型策略优化方法 CUP，其安全性得到了保证，并通过对代理人探索危险区域的限制来进一步确保安全；实验结果表明 CUP 具有较强的实际表现和安全性能。

Sep, 2022

CUP：批评指导的策略复用

提出了一种名为 Critic-guided Policy 的算法用于处理深度强化学习中的策略重用问题，通过使用评论家来评估并选择源策略，避免了训练额外的组件，该算法在有效的策略搜索方面表现出良好性能，胜过其它基准算法。

Oct, 2022

CRPO：一种具有收敛保证的安全强化学习新方法

提出了利用 CRPO 算法框架进行 SRL 问题求解的原始方法，使用自然策略梯度方法，并以全局优化策略为目标，最终达到 1 / 根号 T 的收敛速率和错误边界。

Nov, 2020

带安全约束的保守分布式强化学习

本文提出了一种名为约束保守分布最大后验策略优化（CDMPO）的离线强化学习算法用于安全探索中的约束决策问题，其中利用分布式强化学习方法准确估计 Q 函数和 C 函数，并利用保守的价值函数损失来减少违反约束的次数，同时使用加权平均比例积分微分（WAPID）来稳定更新拉格朗日乘子，在实验中表现出更好的风险控制能力。

Jan, 2022

勘探的保守安全批评家

本文介绍了一种基于保守安全估计的强化学习安全探索方法，通过批判学习环境状态的保守安全估计，从理论上上界限制了灾难性失败概率，实验证明该方法在解决导航、操作和运动任务时达到了具有竞争力的任务性能，同步显著降低了灾难性失败率。

Oct, 2020

约束策略优化

提出了一种新的基于 Constrained Policy Optimization (CPO) 算法的强化学习策略搜索方法，可保证在每次迭代中实现约束满足，能够应用于高维控制问题，例如，在机器人运动中，智能体必须满足安全性约束条件。

May, 2017

约束上置信强化学习

本文提出了一种名为 C-UCRL 的算法，扩展了上置信度强化学习的范围，解决了在奖励函数、约束和转移核函数均未知的情况下探索未知、潜在不安全的环境问题，并在学习的过程中满足奖励约束条件，具有亚线性后悔度。

Jan, 2020

SCPO: 带安全评论家策略优化的安全强化学习

本研究介绍了一种新的安全强化学习算法（Safety Critic Policy Optimization，SCPO），通过引入安全评判机制，该算法能够自动平衡遵守安全限制和最大化奖励之间的权衡，并在实证验证中证明了其有效性。

Nov, 2023

通过离线策略评估的保守探索策略优化

为了在现实世界的系统中部署一种强化学习代理，必须对学习过程提供保证。我们研究了保守型探索问题，在此问题中，学习者必须至少能够保证其性能至少与基线策略相当好。我们提出了第一个适用于连续有限时间问题中策略优化的保守型可证明高效无模型算法。我们利用重要性抽样技术，通过算法自动生成的数据来反事实地评估保守条件。我们推导了一个遗憾界限，并且展示了在学习过程中从未违反保守约束条件的（高概率）证明。最后，我们利用这些见解，通过离策略策略评估技术构建了一般的深度强化学习保守型探索模式。我们经验证明了我们方法的有效性。

Dec, 2023

安全强化学习的约束变分策略优化

该研究通过引入新的期望最大化方法，并从概率推理的角度解决问题，将安全增强学习问题分解为凸优化和监督学习两个阶段，实现了更稳定和更高效的学习表现，并在连续机器人任务的广泛实验中取得了显著的约束满足性能和样本效率提升。

Jan, 2022