局部约束策略优化用于非平稳输入驱动环境的在线强化学习

Feb, 2023

局部约束策略优化用于非平稳输入驱动环境的在线强化学习

Locally Constrained Policy Optimization for Online Reinforcement Learning in Non-Stationary Input-Driven Environments

Pouya Hamadanian, Arash Nasr-Esfahany, Siddartha Sen, Malte Schwarzkopf, Mohammad Alizadeh

TL;DR该论文介绍了一种针对在线强化学习中遇到的忘记、变化等问题的新策略，利用本地约束策略优化（LCPO）来优化当前经验，基于旧经验进行策略衔接，有效地在用于实验室中的合成数据和来自真实电脑系统的数据中进行了验证，结果表明，它在在线设置下优于最先进的策略和离线策略学习方法，并且达到了预先训练整个输入跟踪的离线代理的水平。

Abstract

We study online reinforcement learning (RL) in non-stationary input-driven environments, where a time-varying exogenous input process affects the environment dynamics. Online RL is challenging in such environments due to →

online reinforcement learning non-stationary input-driven environments catastrophic forgetting policy optimization input traces

发现论文，激发创造

模型不匹配下的受限增强学习

在训练环境下，现有的关于约束强化学习（RL）的研究可能可以获得良好的策略。然而，在真实环境中部署时，由于训练与真实环境之间可能存在模型不匹配，它可能很容易违反最初满足的约束。为了解决上述挑战，我们将问题形式化为模型不确定性下的约束强化学习，即旨在学习一个能够优化奖励并同时满足模型不匹配下的约束的良好策略。我们提出了一种名为鲁棒约束策略优化（RCPO）的算法，这是一种适用于大型 / 连续状态空间且在训练期间每次迭代都具有最坏情况奖励改进和约束违规的理论保证的算法。我们在一组具有约束条件的强化学习任务上展示了我们算法的有效性。

May, 2024

基于投影的约束策略优化

本研究提出了一种新的算法，投影约束策略优化（PCPO），用于学习控制策略，以优化奖励函数并满足由安全、公平或其他成本考虑所产生的约束，结果表明与现有的方法相比，PCPO 在多个控制任务中的表现优异，约束违反率平均低至 3.5 倍左右，奖励水平约高 15% 左右。

Oct, 2020

约束策略优化

提出了一种新的基于 Constrained Policy Optimization (CPO) 算法的强化学习策略搜索方法，可保证在每次迭代中实现约束满足，能够应用于高维控制问题，例如，在机器人运动中，智能体必须满足安全性约束条件。

May, 2017

奖励受限策略优化

提出了一种名为 “奖励约束策略优化（RCPO）” 的多时间尺度方法，该方法使用替代惩罚信号引导策略满足约束，并证明了该方法的收敛性和训练满足约束的策略的能力。

May, 2018

闭合形式策略改进算子下的离线强化学习

本研究提出了行为约束的策略优化方法，通过模拟历史状态转移，采用先进的算法，成功地实现了通过行为约束进行离线强化学习。研究中，我们提出了闭式策略改进算子。我们首次发现，行为约束自然促使使用一阶泰勒展开，从而线性逼近策略目标。此外，由于实际数据通常由异构策略收集，因此我们将行为策略建模为高斯混合，并通过利用 LogSumExp 的下界和 Jensen 不等式克服引入的优化困难，得到闭式策略改进算子。我们使用这种新颖的策略改进算子实例化离线 RL 算法，并在标准 D4RL 基准测试上成功地实验验证了其有效性。

Nov, 2022

CRPO：一种具有收敛保证的安全强化学习新方法

提出了利用 CRPO 算法框架进行 SRL 问题求解的原始方法，使用自然策略梯度方法，并以全局优化策略为目标，最终达到 1 / 根号 T 的收敛速率和错误边界。

Nov, 2020

行为近端策略优化

本文通过对线下单调策略改进的分析得出有趣结论，即一些在线策略算法天生就能解决离线 RL 问题，而 Behavior Proximal Policy Optimization (BPPO) 正是基于这个结论提出的，无需额外约束或正则化就能在 D4RL 基准测试中超越最先进的线下 RL 算法。

Feb, 2023

约束型近端策略优化

本文提出了一种名为 CPPO 的新型一阶可行方法，将受限强化学习问题视为概率推理问题。通过计算 E 步骤中的最优策略分布，并对当前策略进行一阶更新以调整至 E 步骤中获得的最优策略，解决了受限强化学习方法中二阶优化或原始 - 对偶框架的复杂性和低效性问题。经实验验证，该方法的有效性至少与其他基线方法一样。

May, 2023

多功能安全强化学习的约束条件策略优化

我们提出了一种适用于实际动态应用的 Conditioned Constrained Policy Optimization (CCPO) 框架，通过引入 Versatile Value Estimation (VVE) 和 Conditioned Variational Inference (CVI) 两个关键模块，在训练效率和零 - shot 适应能力方面超过基准，同时在安全性和任务性能方面保持一个高水平。

Oct, 2023

POPO: 悲观离线策略优化

本文主要针对离线强化学习中的价值函数方法，提出了一种名为 POPO 的悲观离线策略优化算法，它学习了一种悲观的价值函数以获取强策略，相比于多个最先进的算法，在高维状态和动作空间中表现出色。

Dec, 2020