二阶优势信息的策略优化

IJCAIMay, 2018

Policy Optimization with Second-Order Advantage Information

Jiajin Li, Baoxiang Wang

TL;DR本文提出了一种基于控制变量和 Rao-Blackwell 定理的策略优化方法，将其融合到一个统一的框架中，以降低高维连续控制任务中的策略梯度估计器方差，并成功将其应用于高维综合设置和 OpenAI Gym 的 MuJoCo 连续控制任务中。

Abstract

policy optimization on high-dimensional continuous control tasks exhibits its difficulty caused by the large variance of the policy gradient estimators. We present the action subspace dependent gradient (ASDG) es

policy optimization continuous control tasks variance reduction rao-blackwell theorem control variates

发现论文，激发创造

使用广义优势估计进行高维连续控制

本文探讨了如何使用深度神经网络和政策梯度方法，通过数值函数和置信区间优化解决了强化学习中大量样本和非稳定性问题，取得了在高难度 3D 运动任务中显著的实证结果。

Jun, 2015

识别政策梯度子空间

通过评估两种常用的深度策略梯度方法在各种模拟基准任务上的表现，我们的研究结果表明，尽管强化学习所固有的数据分布不断变化，梯度子空间仍然存在，这为未来更高效的强化学习提供了有益的方向，例如通过改善参数空间探索或实现二阶优化。

Jan, 2024

结构化演化与紧凑体系结构的可扩展策略优化

采用结构化随机正交矩阵的梯度逼近黑盒优化方法可以学习到比标准梯度估算技术更好的紧凑策略，从而提高了在资源有限的实际硬件上的速度和可伸缩性。

Apr, 2018

离线强化学习的优势感知策略优化

离线强化学习通过利用脱机数据集来制定有效的智能体策略而无需在线交互，以克服行为策略所支持的适当保守约束来解决分布不匹配问题。本文引入了一种新的 Advantage-Aware Policy Optimization (A2PO) 方法，用于在混合质量数据集下明确构建基于优势感知的策略约束进行离线学习。通过使用条件变分自编码器 (CVAE) 来解开错综复杂的行为策略的动作分布，并将所有训练数据的优势值建模为条件变量，A2PO 可以遵循这种解开的行为分布约束来优化面向高优势值的策略。在 D4RL 基准测试中，对单一质量和混合质量的数据集进行的广泛实验表明，A2PO 的结果优于现有的最先进的对手。我们的代码将公开发布。

Mar, 2024

基于轨迹的离线深度强化学习

本文提出一种改进的基于 policy gradient 的强化学习算法，通过在参数空间中探索、重用过去的 off-policy 数据和确定性的行为策略等技术，提高了数据效率、降低了梯度估计的方差并避免了局部最优解。在一系列连续控制基准任务上的实验表明，相较于标准的 policy gradient 方法，该算法能够成功可靠地使用更少的系统交互来学习解决方案。

May, 2019

使用从稀疏奖励演示中学到的平滑引导奖励的策略优化

通过使用离线演示算法，提出了一种名为 Policy Optimization with Smooth Guidance (POSG) 的简单高效的在线深度强化学习算法，该算法能够解决奖励反馈稀疏性的问题，并在稀疏奖励环境中实现可靠有效的长期信用分配以及有效的探索。

Dec, 2023

策略梯度估计的随机方差缩减

本文介绍应用随机方差缩减梯度下降（SVRG）到无模型策略梯度中以显著提高其样本效率，并将 SVRG 估计组合到信赖区间牛顿共轭梯度架构中进行策略优化。在 Robotic Continuous Control 的几个 Mujoco 任务中，我们的方法比现有的无模型策略梯度方法如 Trust Region Policy Optimization (TRPO) 表现明显更好。

Oct, 2017

针对行动相关分解基线的策略梯度方差缩减

本研究提出了一种无偏差的基于动作的基线方法，该方法可以减少深度增强学习中梯度估计的高方差问题，最终实现高维控制问题的策略梯度算法。此外，还证明了该方法的有效性并扩展到部分观察和多智能体任务。

Mar, 2018

异步、基于选项的多智能体策略梯度：一种条件推理方法

本文提出了一种条件推理方法，以解决多智能体协作任务中的高级行为空间集中控制和梯度获取问题，并在代表性的基于选项的多智能体协作任务上验证了其有效性。

Mar, 2022

斯坦变分策略梯度

本文提出了一种最大熵策略优化框架，该框架明确地鼓励参数探索，并表明这个框架可以被归约为一个贝叶斯推理问题。然后，我们提出了一种新颖的斯坦变分策略梯度方法 (SVPG)，该方法结合了现有的策略梯度方法和一个排斥函数来生成一组多样但行为良好的策略。在连续控制问题上，我们发现在 REINFORCE 和优势演员 - 评论家算法的基础上实现 SVPG 可以提高平均回报和数据效率。

Apr, 2017