截断行动策略梯度

Feb, 2018

Clipped Action Policy Gradient

Yasuhiro Fujita, Shin-ichi Maeda

TL;DR该研究提议使用被截断的行动的知识来减少连续控制任务中的方差，并证明新的策略梯度估计器比传统估计器效果更好。

Abstract

Many continuous control tasks have bounded action spaces and clip out-of-bound actions before execution. policy gradient methods often opt

发现论文，激发创造

连续控制中基准化深度强化学习任务的再现性

本研究探讨了在强化学习中使用策略梯度法的重要性和挑战以及如何提供一致的基准实验来比较新方法。主要研究领域包括连续控制任务、超参数调整和算法的一般方差。

Aug, 2017

将路径法和得分函数估值器相结合, 用于离散行为空间的确定性策略优化

一种新的基于期望的松弛动态模型逼近的混合策略梯度估计器，结合分数函数和路径推导估计器，对离散动作空间具有应用性和可扩展性，可在Cart Pole、Acrobot、Mountain Car和Hand Mass任务上学习参数化策略时显著降低样本复杂度，范围介于1.7倍到25倍之间。

Nov, 2017

强化学习的预期策略梯度

提出了期望策略梯度（EPG）方法，将随机策略梯度（SPG）和确定性策略梯度（DPG）方法统一起来，用于连续或离散动作空间的强化学习中，实验证明其在多项控制任务中胜过现有方法。

Jan, 2018

针对行动相关分解基线的策略梯度方差缩减

本研究提出了一种无偏差的基于动作的基线方法，该方法可以减少深度增强学习中梯度估计的高方差问题，最终实现高维控制问题的策略梯度算法。此外，还证明了该方法的有效性并扩展到部分观察和多智能体任务。

Mar, 2018

离散化连续动作空间的策略优化

本文研究了对连续控制中动作空间的离散化对于基于策略优化的影响，发现动作空间的离散化采用可分解动作分布的策略可以有效地解决离散动作数量的爆炸性增长，并且在复杂动态高维任务上可以通过在策略中使用序数参数化引入自然排序从而获得性能显著提升的优越表现。

Jan, 2019

轨迹控制变量在策略梯度方法中的方差减少应用

该研究分析控制变量技术在策略梯度方法中应用的属性和缺陷，并提出了一种新的、递归构造的迹线方法，用于在合理假设下进一步降低方差。

Aug, 2019

如何学习一个有用的评论家？基于模型的动作梯度估计策略优化

本文提出了一种基于动态学习的MAGE算法，通过显式学习动作价值梯度，从而进一步优化策略，相较于无模型和有模型的现有算法，该算法在连续控制任务中表现良好。

Apr, 2020

关于连续动作空间中策略镜像上升的隐藏偏差

本文针对连续动作空间下的强化学习问题，提出一种基于重尾分布参数化的策略梯度算法，并对该算法进行了理论和实验研究，表明该算法相比于标准基准在多种场景下都能得到改进的奖励累积结果。

Jan, 2022

排除无关因素：通过连续动作屏蔽集中增强学习

本研究论文中，我们提出了三种连续动作屏蔽方法，以精确地将动作空间映射到与状态相关的相关动作集合，从而确保只有相关动作被执行，提高增强学习代理的可预测性，并使其在安全关键应用中得到应用。实验结果显示，这三种动作屏蔽方法比没有动作屏蔽的基线方法能够获得更高的最终奖励并更快地收敛。

Jun, 2024

适用于演员-评论家算法的兼容梯度近似

本研究解决了确定性策略梯度算法在控制连续系统时因依赖评论家价值估计的导数而导致的不准确问题。通过在行动空间内采用基于两点随机梯度估计的零阶近似，我们提出了一种新的演员-评论家算法，有效地解决了确定性策略梯度方案中固有的兼容性问题。实证结果表明，该算法的性能不仅匹配，而且在许多情况下超越了当前的最先进方法。

Sep, 2024