离策略和同策略策略梯度方法何时一致？

Feb, 2024

离策略和同策略策略梯度方法何时一致？

When Do Off-Policy and On-Policy Policy Gradient Methods Align?

Davide Mambelli, Stephan Bongers, Onno Zoeter, Matthijs T.J. Spaan, Frans A. Oliehoek

TL;DR政策梯度方法是广泛应用于具有连续动作空间的任务的强化学习算法，本研究探讨了远离策略目标和传统的在线策略目标之间的差异，并提供了首个理论分析以及条件减小差距的经验证据。

Abstract

policy gradient methods are widely adopted reinforcement learning algorithms for tasks with continuous action spaces. These methods succee

policy gradient methods reinforcement learning continuous action spaces sample inefficiency excursion objective

发现论文，激发创造

基于轨迹的离线深度强化学习

本文提出一种改进的基于 policy gradient 的强化学习算法，通过在参数空间中探索、重用过去的 off-policy 数据和确定性的行为策略等技术，提高了数据效率、降低了梯度估计的方差并避免了局部最优解。在一系列连续控制基准任务上的实验表明，相较于标准的 policy gradient 方法，该算法能够成功可靠地使用更少的系统交互来学习解决方案。

May, 2019

无需重要性采样的 Actor-Critic 方法的离线校正

本文研究了基于离线数据的深度强化学习算法，提出了一种新的策略相似度度量方法来提高算法的采样效率和泛化能力，并且证明了该方法可以实现安全的离线学习。实验证明，该方法相较于其他竞争算法在大多数情况下能够更高效地提高学习效率。

Aug, 2022

插值策略梯度：将在线策略和离线策略梯度估计相结合的深度强化学习方法

本文系统地研究了深度强化学习中混合使用 on-policy 和 off-policy 更新方法，设计了一种基于控制变量方法的算法来有效结合两者，探讨了不同更新方法的优缺点和影响因素，并在多个开源深度控制测试中展示出了本算法的先进性。

Jun, 2017

通用离线演员 - 评论家

提出了一个新的目标函数，counterfactual objective，用于解决连续强化学习中离线策略梯度算法中的问题，得到了广义离线策略梯度定理，并发展出了广义离线行动者 - 评论者算法（Geoff-PAC），通过模拟机器人实验表明其优于现有算法。

Mar, 2019

政策梯度背后的探索神话

我们提出了一种新的分析方法，并区分了探索技术的两个不同影响。首先，它们使得能够平滑学习目标并消除局部最优解，同时保留全局最优解。其次，它们修改了梯度估计，增加了随机参数更新最终提供最优策略的概率。在这些影响的基础上，我们讨论并通过熵奖励进行了实证研究，突出了其局限性，并为该策略的设计和分析开辟了未来的研究方向。

Jan, 2024

具有样本重用的广义近端策略优化

研究利用理论达到策略提升保证的同时，结合较高的数据效率进行决策，通过广义的近端优化，基于样本的有效复用，实现了稳定性和样本效率之间的有效平衡，从而在表现上有了提高。

Oct, 2021

通过离线策略评估的保守探索策略优化

为了在现实世界的系统中部署一种强化学习代理，必须对学习过程提供保证。我们研究了保守型探索问题，在此问题中，学习者必须至少能够保证其性能至少与基线策略相当好。我们提出了第一个适用于连续有限时间问题中策略优化的保守型可证明高效无模型算法。我们利用重要性抽样技术，通过算法自动生成的数据来反事实地评估保守条件。我们推导了一个遗憾界限，并且展示了在学习过程中从未违反保守约束条件的（高概率）证明。最后，我们利用这些见解，通过离策略策略评估技术构建了一般的深度强化学习保守型探索模式。我们经验证明了我们方法的有效性。

Dec, 2023

关于策略梯度方法的理论：最优性、逼近和分布偏移

本文研究了策略梯度方法在强化学习中的应用，提供了在马尔可夫决策过程中对其计算、逼近和样本量特征的可证特征化，并探究了参数化策略和表格化策略参数化的差异，其中一个主要贡献是提供了平均情况下的逼近保证，通过与分布转变下的监督学习形式上的联系来避免了最坏情况下对状态空间大小的显式依赖。

Aug, 2019

近端策略优化算法

本研究提出了一种新的针对增强学习的策略梯度方法，称为近端策略优化 (PPO)，通过与环境的交互采样数据，并使用随机梯度上升优化 “替代” 目标函数，不同于标准的策略梯度方法，该方法可以实现多个小批量更新周期，实验结果表明 PPO 在模拟机器人运动和 Atari 视频游戏玩耍等基准任务上的表现优于其他在线策略梯度方法，同时在样本复杂度、实现简单性和时间效率等方面取得了有利的平衡。

Jul, 2017

P3O: 策略开关式策略优化

这篇论文介绍了一种名为 P3O 的简单算法，它交替运用 on-policy 和 off-policy 更新，使用 behavior policy 和 target policy 之间的有效样本量控制它们之间的距离，以降低强化学习算法的采样复杂度。在 Atari-2600 和 MuJoCo 基准套件上的实验表明，这种算法可以有效地降低现有算法的采样复杂度。

May, 2019