平均受限策略优化

Feb, 2023

Average-Constrained Policy Optimization

Akhil Agnihotri, Rahul Jain, Haipeng Luo

TL;DR本论文提出针对平均准则的受约束 MDPs 的一种新的（可能是第一种）策略优化算法 —— 平均约束策略优化（ACPO）算法，通过对平均 MDP 的基本灵敏度理论进行开发并在算法的设计中使用相应的界限，提供其性能的理论保证，并通过在各种具有挑战性的 MuJoCo 环境中的广泛实验工作，展示了该算法与其他专门为平均 CMDP 设置的最先进算法相比的卓越性能。

Abstract

reinforcement learning (RL) with constraints is becoming an increasingly important problem for various applications. Often, the average criterion

reinforcement learning constraints average criterion mdps policy optimization algorithm

发现论文，激发创造

使用信任域方法的平均奖励强化学习

本文探讨了长期平均目标下的强化学习问题，提出了一种统一的信任区域理论和一种名为 APO 的实用算法，该算法可以改进价值估计，并且在大部分任务中表现优于折扣 PPO，提出的框架可能会补充折扣目标的强化学习框架。

Jun, 2021

约束策略优化

提出了一种新的基于 Constrained Policy Optimization (CPO) 算法的强化学习策略搜索方法，可保证在每次迭代中实现约束满足，能够应用于高维控制问题，例如，在机器人运动中，智能体必须满足安全性约束条件。

May, 2017

约束强化学习的平均奖励目标：基于模型和无模型算法

在这份研究论文中，通过系统研究了强化学习（Reinforcement Learning）在约束条件下的模型方法和无模型方法，着重分析了平均奖励随机决策过程中乐观和后验取样的基础方法以及参数化模型无关方法，同时在解决约束决策过程中提供遗憾保证和约束违规分析。同时，还探讨了在弱通信随机决策过程中的结果，扩大了研究结果的适用范围。

Jun, 2024

基于策略的深度强化学习在平均回报准则下的应用

本研究针对均值回报的强化学习问题，提出了一种考虑策略改善和深度强化学习相结合的新算法 ATRPO，实验结果表明该算法在 MuJuCo 环境中不仅能够有效应对较为复杂的任务，而且在长期平均回报上的表现也优于传统算法 TRPO。

Jun, 2021

奖励受限策略优化

提出了一种名为 “奖励约束策略优化（RCPO）” 的多时间尺度方法，该方法使用替代惩罚信号引导策略满足约束，并证明了该方法的收敛性和训练满足约束的策略的能力。

May, 2018

模型不匹配下的受限增强学习

在训练环境下，现有的关于约束强化学习（RL）的研究可能可以获得良好的策略。然而，在真实环境中部署时，由于训练与真实环境之间可能存在模型不匹配，它可能很容易违反最初满足的约束。为了解决上述挑战，我们将问题形式化为模型不确定性下的约束强化学习，即旨在学习一个能够优化奖励并同时满足模型不匹配下的约束的良好策略。我们提出了一种名为鲁棒约束策略优化（RCPO）的算法，这是一种适用于大型 / 连续状态空间且在训练期间每次迭代都具有最坏情况奖励改进和约束违规的理论保证的算法。我们在一组具有约束条件的强化学习任务上展示了我们算法的有效性。

May, 2024

通过原始 - 对偶策略梯度算法学习无限时域平均奖励受限马尔可夫决策过程的通用参数化策略

本文研究了无限时段平均回报约束马尔可夫决策过程（CMDP）。在我们的知识范围内，该工作是第一个深入探讨了具有一般策略参数化的平均回报 CMDP 的遗憾和约束违反分析。为了解决这个挑战，我们提出了一种基于原始对偶的策略梯度算法，能够在确保低遗憾全局最优策略的同时，灵活处理约束。特别地，我们证明了我们提出的算法实现了 $\tilde {\mathcal {O}}({T}^{3/4})$ 的目标遗憾和 $\tilde {\mathcal {O}}({T}^{3/4})$ 的约束违反界限。

Feb, 2024

各州受限制的政策优化

State-wise Constrained Policy Optimization (SCPO) 是第一个面向状态限制的强化学习通用策略搜索算法，通过引入最大马尔科夫决策过程的框架，证明在期望下满足状态限制，并通过在高维机器人任务中的有效性证明显示 SCPO 显著优于现有方法。

Jun, 2023

约束型近端策略优化

本文提出了一种名为 CPPO 的新型一阶可行方法，将受限强化学习问题视为概率推理问题。通过计算 E 步骤中的最优策略分布，并对当前策略进行一阶更新以调整至 E 步骤中获得的最优策略，解决了受限强化学习方法中二阶优化或原始 - 对偶框架的复杂性和低效性问题。经实验验证，该方法的有效性至少与其他基线方法一样。

May, 2023

基于确定性策略搜索的离线平均回报演员 - 评论家算法

本文研究了强化学习中平均回报和折扣回报的区别，提出了面向平均回报的策略梯度定理，同时开发了基于此理论的 Average Reward Off-Policy Deep Deterministic Policy Gradient (ARO-DDPG) 算法。实验结果表明，ARO-DDPG 在 MuJoCo 环境中优于现有的基于平均回报的策略方法。

May, 2023