本文提出一种改进的基于 policy gradient 的强化学习算法,通过在参数空间中探索、重用过去的 off-policy 数据和确定性的行为策略等技术,提高了数据效率、降低了梯度估计的方差并避免了局部最优解。在一系列连续控制基准任务上的实验表明,相较于标准的 policy gradient 方法,该算法能够成功可靠地使用更少的系统交互来学习解决方案。
May, 2019
我们提出了一种新的分析方法,并区分了探索技术的两个不同影响。首先,它们使得能够平滑学习目标并消除局部最优解,同时保留全局最优解。其次,它们修改了梯度估计,增加了随机参数更新最终提供最优策略的概率。在这些影响的基础上,我们讨论并通过熵奖励进行了实证研究,突出了其局限性,并为该策略的设计和分析开辟了未来的研究方向。
Jan, 2024
基于政策梯度定理的深度强化学习中,各种强大的政策梯度算法已被提出。本论文提供了对政策梯度算法的整体概述,旨在促进对其理论基础和实际实现的理解,包括连续版本的政策梯度定理的详细证明、收敛性结果以及对实际算法的全面讨论。通过在连续控制环境中比较最重要的算法并提供正则化的好处方面的见解,进一步加强了对主题的认识。
研究提供了一种新的基于分布框架的生成式策略梯度算法 (GAC) 来解决现有的策略梯度方法由于限制策略表示为参数分布类而导致的局部移动及收敛到亚最优解的问题。该方法不需要知道分布函数,可以有效处理连续控制问题。实验结果显示 GAC 方法优于当前最先进的基线方法。
通过比较基于动作和基于参数的探索,本论文介绍了一种理论框架以及对全局收敛性的研究,用于理解强化学习中连续问题的策略梯度方法,可以通过学习确定性策略来优化采样复杂度和性能之间的权衡。
May, 2024
本论文研究不同的梯度下降优化方法对深度强化学习的影响,并发现适应性优化器有一个有效学习率的狭窄窗口,同时动量的有效性会因环境属性而异,为深度强化学习算法的优化提供了新的思路和建议。
Oct, 2018
本文研究了策略梯度方法在强化学习中的应用,提供了在马尔可夫决策过程中对其计算、逼近和样本量特征的可证特征化,并探究了参数化策略和表格化策略参数化的差异,其中一个主要贡献是提供了平均情况下的逼近保证,通过与分布转变下的监督学习形式上的联系来避免了最坏情况下对状态空间大小的显式依赖。
Aug, 2019
通过将策略优化视为概率度量空间中的 Wasserstein 梯度流,我们在数字化求解相应的离散梯度流时开发了高效算法,通过实验证明了此方法的有效性。
Aug, 2018
我们对文献中的 Reinforce 策略梯度算法进行了重新审视,并提出了一种改进算法,通过估计扰动参数上的策略梯度,采用随机搜索方法的一类随机性测量来放松无限状态和动作空间系统中的规则要求,证明了改进算法的收敛性。
Oct, 2023
该研究通过引入泛函的方法,提出了一种新的策略梯度算法,用于解决马尔可夫决策问题中带通用上限效用函数的策略优化问题,并证明了其全局收敛性和收敛速度。
Jul, 2020