离线强化学习的支持策略优化

Feb, 2022

Supported Policy Optimization for Offline Reinforcement Learning

Jialong Wu, Haixu Wu, Zihan Qiu, Jianmin Wang, Mingsheng Long

TL;DR本文提出了一种名为 SPOT 的方法，它是基于密度支持约束的理论正式化，采用了基于 VAE 的密度估计器来明确建模行为策略的支持集，并提出了一个简单而有效的基于密度的正则化项，可非侵入地插入到现成的 off-policy RL 算法中。SPOT 在离线 RL 的标准基准测试中实现了最先进的性能。由于其可插拔的设计，来自 SPOT 的离线预训练模型也可以无缝地应用于在线微调。

Abstract

policy constraint methods to offline reinforcement learning (RL) typically utilize parameterization or regularization that constrains the policy to perform actions within the support set of the behavior policy. T

policy constraint methods offline reinforcement learning density-based support constraint vae-based density estimator off-policy rl algorithms

发现论文，激发创造

离线强化学习的支持信任域优化

在离线强化学习中，基于行为策略的支持约束的支持下的支持信任区域优化（STR）保证了严格的策略改进，并在包括近似误差和采样误差的情况下保证步骤的安全策略改进，其理论和实证结果验证了其在 MuJoCo 运动领域和具有更具挑战性的 AntMaze 领域的卓越性能。

Nov, 2023

离线强化学习中的潜变量优势加权策略优化

本文提出了一种名为 LAPO（latent-variable advantage-weighted policy optimization）的方法，通过使用潜变量的策略来解决离线数据集分布偏移问题，取得了在多项任务中超越同类方法的显著性能提升。

Mar, 2022

通过数据集约束的政策正则化用于离线强化学习

本文提出了一种名为 PRDC 的政策正则化算法，该算法通过数据集约束从离线强化学习的数据集中学习最佳政策，能够缓解价值高估问题并在一组机器人应用上实现了最先进的性能．

Jun, 2023

政策规范化的离线多目标强化学习

本文致力于利用仅离线轨迹数据训练一个多目标强化学习策略。我们将单目标离线强化学习问题中广泛采用的离线策略正则化方法扩展到多目标设置，以达到上述目标。然而，在离线多目标强化学习设置中，存在新的挑战，即偏好不一致演示问题。我们提出了两个解决方案：1）通过近似行为偏好来过滤偏好不一致的演示，和 2）采用具有高策略表达能力的正则化技术。此外，我们将偏好条件化的标量化更新方法整合到策略正则化的离线强化学习中，以便使用单个策略网络同时学习一组策略，从而减少训练大量不同偏好的个体策略所带来的计算成本。最后，我们引入了正则化权重适应机制，在部署过程中动态确定任意目标偏好的适当正则化权重。各种多目标数据集上的实证结果展示了我们的方法在解决离线多目标强化学习问题方面的能力。

Jan, 2024

从离线数据中学习可变目标的控制策略

离线强化学习是一种获取动态系统先进控制策略的可行方法，尤其是在无法直接与环境互动时。本文介绍了一种名为可变目标策略（VOP）的基于模型的策略搜索方法的概念扩展。通过此方法，策略被训练以有效地泛化各种目标，这些目标对奖励函数进行参数化。我们证明了通过改变作为输入传递给策略的目标，用户可以在运行时自由调整其行为或重新平衡优化目标，无需收集额外的观察数据或重新训练。

Aug, 2023

MOPO: 基于模型的离线策略优化

本文提出了一种基于模型的离线策略优化算法 (MOPO)，通过将模型地图上未知点处的即时报酬设置为高风险，从而优化模型训练过程中的代理策略，以解决离线数据分布发生漂移的问题，并在现有数据集和具有挑战性的连续控制任务中获得了最佳表现。

May, 2020

闭合形式策略改进算子下的离线强化学习

本研究提出了行为约束的策略优化方法，通过模拟历史状态转移，采用先进的算法，成功地实现了通过行为约束进行离线强化学习。研究中，我们提出了闭式策略改进算子。我们首次发现，行为约束自然促使使用一阶泰勒展开，从而线性逼近策略目标。此外，由于实际数据通常由异构策略收集，因此我们将行为策略建模为高斯混合，并通过利用 LogSumExp 的下界和 Jensen 不等式克服引入的优化困难，得到闭式策略改进算子。我们使用这种新颖的策略改进算子实例化离线 RL 算法，并在标准 D4RL 基准测试上成功地实验验证了其有效性。

Nov, 2022

带有梯度惩罚和约束松弛的鲁棒离线强化学习

本文介绍了解决离线强化学习面临的数据污染问题的一系列技术，包括梯度惩罚和批评家权重约束松弛等方法，并在 D4RL Mujoco 和 Adroit 数据集上进行了实验验证。

Oct, 2022

基于状态规约的动力转移数据策略优化

通过学习具有相似环境结构但不同动力学的数据的稳态分布，使用稳态分布规范化策略并构建 SRPO 算法来解决 Reinforcement Learning 算法训练数据分布不同的问题，并在实验中验证了其有效性。

Jun, 2023

将基于模型策略的稳态分布规范化以稳定离线强化学习

该研究针对离线强化学习中策略训练不稳定的问题，通过对当前策略的无折扣平稳分布进行正则化，并训练动力学模型以实现该正则化和更好地估计当前策略的平稳分布，从而减少分布不匹配引起的误差，并在广泛的连续控制离线 RL 数据集上展现出竞争性的性能。

Jun, 2022