截断行动策略梯度
本研究探讨了在强化学习中使用策略梯度法的重要性和挑战以及如何提供一致的基准实验来比较新方法。主要研究领域包括连续控制任务、超参数调整和算法的一般方差。
Aug, 2017
一种新的基于期望的松弛动态模型逼近的混合策略梯度估计器,结合分数函数和路径推导估计器,对离散动作空间具有应用性和可扩展性,可在Cart Pole、Acrobot、Mountain Car和Hand Mass任务上学习参数化策略时显著降低样本复杂度,范围介于1.7倍到25倍之间。
Nov, 2017
提出了期望策略梯度(EPG)方法,将随机策略梯度(SPG)和确定性策略梯度(DPG)方法统一起来,用于连续或离散动作空间的强化学习中,实验证明其在多项控制任务中胜过现有方法。
Jan, 2018
本研究提出了一种无偏差的基于动作的基线方法,该方法可以减少深度增强学习中梯度估计的高方差问题,最终实现高维控制问题的策略梯度算法。此外,还证明了该方法的有效性并扩展到部分观察和多智能体任务。
Mar, 2018
本文研究了对连续控制中动作空间的离散化对于基于策略优化的影响,发现动作空间的离散化采用可分解动作分布的策略可以有效地解决离散动作数量的爆炸性增长,并且在复杂动态高维任务上可以通过在策略中使用序数参数化引入自然排序从而获得性能显著提升的优越表现。
Jan, 2019
本文提出了一种基于动态学习的MAGE算法,通过显式学习动作价值梯度,从而进一步优化策略,相较于无模型和有模型的现有算法,该算法在连续控制任务中表现良好。
Apr, 2020
本文针对连续动作空间下的强化学习问题,提出一种基于重尾分布参数化的策略梯度算法,并对该算法进行了理论和实验研究,表明该算法相比于标准基准在多种场景下都能得到改进的奖励累积结果。
Jan, 2022
本研究论文中,我们提出了三种连续动作屏蔽方法,以精确地将动作空间映射到与状态相关的相关动作集合,从而确保只有相关动作被执行,提高增强学习代理的可预测性,并使其在安全关键应用中得到应用。实验结果显示,这三种动作屏蔽方法比没有动作屏蔽的基线方法能够获得更高的最终奖励并更快地收敛。
Jun, 2024
本研究解决了确定性策略梯度算法在控制连续系统时因依赖评论家价值估计的导数而导致的不准确问题。通过在行动空间内采用基于两点随机梯度估计的零阶近似,我们提出了一种新的演员-评论家算法,有效地解决了确定性策略梯度方案中固有的兼容性问题。实证结果表明,该算法的性能不仅匹配,而且在许多情况下超越了当前的最先进方法。
Sep, 2024