深度强化学习的监督策略更新

May, 2018

Supervised Policy Update

Quan Ho Vuong, Yiming Zhang, Keith W. Ross

TL;DR提出了一种新的深度强化学习的高效采样方法，名为SPU。该方法通过在非参数化的近端策略空间中制定和解决约束优化问题来提高采样效率，并优于传统的策略优化算法TRPO和PPO。

Abstract

We propose a new sample-efficient methodology, called supervised policy update (SPU), for deep reinforcement learning. Starting with data

发现论文，激发创造

基于参数探索的策略梯度中的高效样本重用

本文提出一种有效的基于参数探索的政策梯度算法，通过结合梯度估计的再利用、重要性采样和优化基准线等三个思想，成功地降低了算法的方差，从而实现计算高效的政策更新。理论分析和实验说明了该方法的实用性。

Jan, 2013

信任域策略优化

本文提出了一种名为TRPO的实用算法，通过优化政策来达到保证单调改善的目的，并通过一系列实验展示了其在学习模拟机器人的Swimming、Hopping以及Walking，并使用屏幕图像玩Atari游戏等众多方面的优越表现。

Feb, 2015

引导策略搜索作为近似镜像下降

该论文提出了一种新的指导策略搜索算法，将其解释为镜像下降的近似变体，并提供了改善收敛性的保证。实验结果表明，该算法在机器人导航和操作任务中的表现优于之前的指导策略搜索方法，并且具有更简单的公式和更少的超参数。

Jul, 2016

近端策略优化算法

本研究提出了一种新的针对增强学习的策略梯度方法，称为近端策略优化(PPO)，通过与环境的交互采样数据，并使用随机梯度上升优化“替代”目标函数，不同于标准的策略梯度方法，该方法可以实现多个小批量更新周期，实验结果表明PPO在模拟机器人运动和Atari视频游戏玩耍等基准任务上的表现优于其他在线策略梯度方法，同时在样本复杂度、实现简单性和时间效率等方面取得了有利的平衡。

Jul, 2017

通过无关行为的发散正则化来实现稳定的政策优化

在这篇论文中，我们提出了一种新的算法，它通过一种接近性项稳定了策略改进，并限制由连续策略引发的折扣状态行动访问分布彼此接近，并通过离线训练和对抗性学习的方式学习这种接近性项。我们在基准高维控制任务中实证表明，我们提出的方法可以对稳定性产生有益影响，并提高最终性能.

Mar, 2020

深度策略梯度的实现问题: PPO和TRPO的案例研究

通过对两种流行算法（PPO和TRPO）的案例研究，我们研究了深度策略梯度算法中算法进展的根源，并调查了“代码级优化”的后果：这些优化仅出现在其他实现中或被描述为核心算法的辅助详细信息，它们似乎具有次要影响，但实际上极大地影响了代理行为。我们的结果表明，它们（a）负责PPO在累积奖励方面比TRPO获得的大部分收益，并且（b）从根本上改变了RL方法的功能。

May, 2020

重新审视近端策略优化中的设计选择

本文介绍了Proximal Policy Optimization (PPO)算法，探讨了算法的设计和实现，指出了标准实现方式中存在的三个失败模式，提出了替代方案。同时，本文认为我们应该注意算法的设计与模拟环境之间的关系。

Sep, 2020

基于截断目标函数的消极策略优化的政策梯度

通过简单的目标调整，我们发现在连续行动空间中，将 Proximal Policy Optimization (PPO) 的重要性采样目标替换为截断等价的基础策略梯度可以持续改善其性能，并且这种悲观的优化促进了增强性探索，从而在单任务、约束和多任务学习中产生了改进的学习效果，而不增加显著的计算成本或复杂性。

Nov, 2023

不需要在策略采样的强化学习中的同策略策略梯度

透过引入自适应的离策略采样方法，本文提出了一种能够改进策略梯度算法数据效率的采样方法 PROPS 去减少采样误差并通过调整旧策略的数据分布使其接近策略梯度算法的数据要求，实验证明此方法能够减少采样误差并提高策略梯度算法的数据效率。

Nov, 2023

扩散策略优化

本研究解决了扩散基础策略在连续控制和机器人学习任务中的高效调优问题。提出的DPPO框架通过强化学习中的策略梯度方法，展示了在常见基准测试中优于其他RL方法的强大性能与效率，表明了扩散参数化与强化学习调优之间的独特协同作用，具有广泛的应用潜力。

Sep, 2024