e-COP：策略的时序受限优化

Jun, 2024

e-COP : Episodic Constrained Optimization of Policies

Akhil Agnihotri, Rahul Jain, Deepak Ramachandran, Sahil Singla

TL;DR本文介绍了 $ exttt {e-COP}$ 算法，这是第一个适用于有约束的强化学习 (RL) 的离散 (有限时段) 设置的策略优化算法。我们通过在离散设置下建立策略差异引理来解决这个问题，提供算法的理论基础。通过对 Safety Gym 测试套件中的基准进行广泛的实证分析，我们展示了我们的算法在性能上与非离散设置下的最新算法相似或更优。该算法的可扩展性为将其应用于大型语言或扩散模型的通过人类反馈进行安全约束的强化学习打开了大门。

Abstract

In this paper, we present the $\texttt{e-COP}$ algorithm, the first policy optimization algorithm for constrained reinforcement learning (RL) in episodic (finite horizon) settings. Such formulations are applicable when there are separate sets of optimization criteria and constraints on

policy optimization algorithm constrained reinforcement learning episodic setting optimality safety-constrained reinforcement learning

发现论文，激发创造

线性函数逼近的谨慎乐观策略优化与探索

本文提出了一种改进版的 COPOE 算法，克服 Policy optimization 方法在采样复杂度方面的问题，同时保留它对模型不当规格化的鲁棒性。

Mar, 2021

利用额外安全预算在受限策略优化中进行高效探索

本文提出了一种 ESB-CPO 算法，通过在早期阶段增加额外的安全预算来平衡探索和约束，以提高过程的效率，证明其在保证安全性的基础上能够显著提高性能。

Feb, 2023

基于灵活约束的层次强化学习优化

该论文主要研究通过约束条件解决具有复杂安全约束的长期决策问题，提出了一种结合高级有约束规划代理和低级目标条件强化学习代理的机制，能够处理成本分布的约束，并在实验中验证了其实用性。

Feb, 2023

约束策略优化

提出了一种新的基于 Constrained Policy Optimization (CPO) 算法的强化学习策略搜索方法，可保证在每次迭代中实现约束满足，能够应用于高维控制问题，例如，在机器人运动中，智能体必须满足安全性约束条件。

May, 2017

基于投影的约束策略优化

本研究提出了一种新的算法，投影约束策略优化（PCPO），用于学习控制策略，以优化奖励函数并满足由安全、公平或其他成本考虑所产生的约束，结果表明与现有的方法相比，PCPO 在多个控制任务中的表现优异，约束违反率平均低至 3.5 倍左右，奖励水平约高 15% 左右。

Oct, 2020

奖励受限策略优化

提出了一种名为 “奖励约束策略优化（RCPO）” 的多时间尺度方法，该方法使用替代惩罚信号引导策略满足约束，并证明了该方法的收敛性和训练满足约束的策略的能力。

May, 2018

具约束的有限时间 MDP 的高样本效率算法

本文研究了约束马尔可夫决策过程，并提出了一种在线算法，该算法利用了有限时间视角下的线性规划公式来进行乐观规划，以提供概率上正确的 γ 优化策略，该算法逐渐逼近最佳结果，并且保证结果最多只是 γ 深度有损失的结果，并且在指定公差范围内具有概率保证。

Sep, 2020

CRPO：一种具有收敛保证的安全强化学习新方法

提出了利用 CRPO 算法框架进行 SRL 问题求解的原始方法，使用自然策略梯度方法，并以全局优化策略为目标，最终达到 1 / 根号 T 的收敛速率和错误边界。

Nov, 2020

协作式近端策略优化

本文提出了一种名为 CoPPO 的算法，用于多智能体环境下的多项策略优化，并证明了该算法在优化理论基础上的联合目标后能够实现动态的学分分配，解决了多智能体系统中同时更新智能体策略时高方差的问题，并通过实验证明其在合作矩阵博弈和 StarCraft II 微观管理任务等典型多智能体环境下优于一些强基线，并与最新的多智能体 PPO 方法（即 MAPPO）相竞争。

Nov, 2021

局部约束策略优化用于非平稳输入驱动环境的在线强化学习

该论文介绍了一种针对在线强化学习中遇到的忘记、变化等问题的新策略，利用本地约束策略优化（LCPO）来优化当前经验，基于旧经验进行策略衔接，有效地在用于实验室中的合成数据和来自真实电脑系统的数据中进行了验证，结果表明，它在在线设置下优于最先进的策略和离线策略学习方法，并且达到了预先训练整个输入跟踪的离线代理的水平。

Feb, 2023