Off-OAB：具有最佳行动相关基线的离策略策略梯度方法

May, 2024

Off-OAB：具有最佳行动相关基线的离策略策略梯度方法

Off-OAB: Off-Policy Policy Gradient Method with Optimal Action-Dependent Baseline

Wenjia Meng, Qian Zheng, Long Yang, Yilong Yin, Gang Pan

TL;DR我们提出了一种基于最优行为相关基线的离策略策略梯度方法（Off-OAB），以减轻离策略策略梯度估计器的高方差问题，提高训练过程中的样本效率。在六个代表性任务上对 Off-OAB 方法进行评估，结果表明其在大多数任务上明显优于现有方法。

Abstract

policy-based methods have achieved remarkable success in solving challenging reinforcement learning problems. Among these methods, off-policy policy gradient methods are particularly important due to that they ca

policy-based methods reinforcement learning off-policy policy gradient methods variance issue baseline

发现论文，激发创造

针对行动相关分解基线的策略梯度方差缩减

本研究提出了一种无偏差的基于动作的基线方法，该方法可以减少深度增强学习中梯度估计的高方差问题，最终实现高维控制问题的策略梯度算法。此外，还证明了该方法的有效性并扩展到部分观察和多智能体任务。

Mar, 2018

多智体策略梯度方差解决

本文通过量化多智能体强化学习算法中智能体数量和探索策略对算法模型的方差的贡献，并采用优化基线的方式来降低方差，提出了一种解决多智能体 PG 方法效率下降的方案，并在 MuJoCo 和 StarCraft 场景下验证有效性。

Aug, 2021

离策略和同策略策略梯度方法何时一致？

政策梯度方法是广泛应用于具有连续动作空间的任务的强化学习算法，本研究探讨了远离策略目标和传统的在线策略目标之间的差异，并提供了首个理论分析以及条件减小差距的经验证据。

Feb, 2024

基于轨迹的离线深度强化学习

本文提出一种改进的基于 policy gradient 的强化学习算法，通过在参数空间中探索、重用过去的 off-policy 数据和确定性的行为策略等技术，提高了数据效率、降低了梯度估计的方差并避免了局部最优解。在一系列连续控制基准任务上的实验表明，相较于标准的 policy gradient 方法，该算法能够成功可靠地使用更少的系统交互来学习解决方案。

May, 2019

强化学习中，行动相关基线的幻象

通过对策略梯度估计器方差进行分解，发现在常见测试基准领域中，学习的状态 - 动作相关基线实际上并不降低方差，确认这一意外结果的同时，对实现细节进行细致审查并说明先前观察到的经验性增益的来源。另外，方差分解还突出了改进的领域，通过演示对典型值函数参数化的简单改变，可显著提高性能。

Feb, 2018

策略优化中可证明高效的探索

本文提出了一种 Proximal Policy Optimization 算法的乐观变异版本（OPPO），它实现了在带有线性函数拟合、未知转移和对抗奖励的情况下，探索机制下的近似最优解，是第一种实现这一目标的算法。

Dec, 2019

近端策略优化算法

本研究提出了一种新的针对增强学习的策略梯度方法，称为近端策略优化 (PPO)，通过与环境的交互采样数据，并使用随机梯度上升优化 “替代” 目标函数，不同于标准的策略梯度方法，该方法可以实现多个小批量更新周期，实验结果表明 PPO 在模拟机器人运动和 Atari 视频游戏玩耍等基准任务上的表现优于其他在线策略梯度方法，同时在样本复杂度、实现简单性和时间效率等方面取得了有利的平衡。

Jul, 2017

针对离线策略上下文主动学习任务的最佳基线修正

将离线学习范式应用于推荐系统和排名应用，提出一个统一的框架，采用等效的均衡基准修正方法来减少估计方差，从而得到方差最优的无偏估计器。

May, 2024

通用动作空间中的平衡离线评估

提出了平衡离线策略评估 (B-OPE) 的通用方法，通过将估计权重的风险最小化，减小了平衡不匹配的问题，其二分类解决方案可适用于所有操作类型，并且易于超参数调整，实验证明其在离线策略评估中得到应用。

Jun, 2019

统计高效的离线策略梯度

本文研究了如何在离线数据中高效地估计策略梯度。我们提出了一个元算法，在不需要参数假设的情况下实现了可行均方误差的渐进下界，并且具有三重双重稳健性质。我们还讨论了如何估计算法所依赖的干扰量。最后，我们证明了当我们朝着新的策略梯度方向迈出步伐时，我们接近稳态点的速度是有保证的。

Feb, 2020