奖励受限策略优化

ICLRMay, 2018

Reward Constrained Policy Optimization

Chen Tessler, Daniel J. Mankowitz, Shie Mannor

TL;DR提出了一种名为 “奖励约束策略优化（RCPO）” 的多时间尺度方法，该方法使用替代惩罚信号引导策略满足约束，并证明了该方法的收敛性和训练满足约束的策略的能力。

Abstract

Solving tasks in reinforcement learning is no easy feat. As the goal of the agent is to maximize the accumulated reward, it often learns to exploit loopholes and misspecifications in the reward signal resulting in unwanted behavior. While constraints may solve this issue, there is no c

reinforcement learning reward constrained policy optimization multi-timescale approach constrained policy optimization constraint satisfaction

发现论文，激发创造

模型不匹配下的受限增强学习

在训练环境下，现有的关于约束强化学习（RL）的研究可能可以获得良好的策略。然而，在真实环境中部署时，由于训练与真实环境之间可能存在模型不匹配，它可能很容易违反最初满足的约束。为了解决上述挑战，我们将问题形式化为模型不确定性下的约束强化学习，即旨在学习一个能够优化奖励并同时满足模型不匹配下的约束的良好策略。我们提出了一种名为鲁棒约束策略优化（RCPO）的算法，这是一种适用于大型 / 连续状态空间且在训练期间每次迭代都具有最坏情况奖励改进和约束违规的理论保证的算法。我们在一组具有约束条件的强化学习任务上展示了我们算法的有效性。

May, 2024

约束策略优化

提出了一种新的基于 Constrained Policy Optimization (CPO) 算法的强化学习策略搜索方法，可保证在每次迭代中实现约束满足，能够应用于高维控制问题，例如，在机器人运动中，智能体必须满足安全性约束条件。

May, 2017

基于投影的约束策略优化

本研究提出了一种新的算法，投影约束策略优化（PCPO），用于学习控制策略，以优化奖励函数并满足由安全、公平或其他成本考虑所产生的约束，结果表明与现有的方法相比，PCPO 在多个控制任务中的表现优异，约束违反率平均低至 3.5 倍左右，奖励水平约高 15% 左右。

Oct, 2020

CRPO：一种具有收敛保证的安全强化学习新方法

提出了利用 CRPO 算法框架进行 SRL 问题求解的原始方法，使用自然策略梯度方法，并以全局优化策略为目标，最终达到 1 / 根号 T 的收敛速率和错误边界。

Nov, 2020

多功能安全强化学习的约束条件策略优化

我们提出了一种适用于实际动态应用的 Conditioned Constrained Policy Optimization (CCPO) 框架，通过引入 Versatile Value Estimation (VVE) 和 Conditioned Variational Inference (CVI) 两个关键模块，在训练效率和零 - shot 适应能力方面超过基准，同时在安全性和任务性能方面保持一个高水平。

Oct, 2023

约束型近端策略优化

本文提出了一种名为 CPPO 的新型一阶可行方法，将受限强化学习问题视为概率推理问题。通过计算 E 步骤中的最优策略分布，并对当前策略进行一阶更新以调整至 E 步骤中获得的最优策略，解决了受限强化学习方法中二阶优化或原始 - 对偶框架的复杂性和低效性问题。经实验验证，该方法的有效性至少与其他基线方法一样。

May, 2023

平均受限策略优化

本论文提出针对平均准则的受约束 MDPs 的一种新的（可能是第一种）策略优化算法 —— 平均约束策略优化（ACPO）算法，通过对平均 MDP 的基本灵敏度理论进行开发并在算法的设计中使用相应的界限，提供其性能的理论保证，并通过在各种具有挑战性的 MuJoCo 环境中的广泛实验工作，展示了该算法与其他专门为平均 CMDP 设置的最先进算法相比的卓越性能。

Feb, 2023

使用硬约束进行连续控制的简化策略优化

近期有关约束强化学习的研究进展为强化学习提供了一定的安全性保证。本文介绍了一种将 RL 与 GRG 相结合的减少策略优化算法 (RPO)，用于处理存在非凸硬约束条件的连续控制任务。通过将动作分为基本动作和非基本动作，RPO 算法采用了 GRG 的方法生成基本动作，并通过等式约束求解得到非基本动作。另外，还引入了基于减少梯度的动作投影过程，并应用改进的拉格朗日松弛技术来确保不等式约束得到满足。此外，为了解决目前缺乏复杂硬约束环境的问题，我们开发了三个新的基准测试任务：两个机器人操作任务和一个智能电网运行控制任务。通过这些基准测试，RPO 算法在累积奖励和约束违规方面显示出比之前的约束强化学习算法更好的性能。我们相信 RPO 算法及其新的基准测试将为将 RL 应用于具有复杂约束的现实问题打开新的机遇。

Oct, 2023

带惩罚项的近端优化安全强化学习

本论文提出惩罚近端策略优化 (P3O) 算法，通过一个等效的无约束问题的单次极小化来解决繁琐的受约束策略迭代，同时可以扩展至多约束和多智能体场景，实验表明该算法在一组有约束的机车任务上具有先进性能。

May, 2022

各州受限制的政策优化

State-wise Constrained Policy Optimization (SCPO) 是第一个面向状态限制的强化学习通用策略搜索算法，通过引入最大马尔科夫决策过程的框架，证明在期望下满足状态限制，并通过在高维机器人任务中的有效性证明显示 SCPO 显著优于现有方法。

Jun, 2023