基于动量的策略梯度算法的全局最优收敛性
本研究从非凸优化的角度出发,提出一种新的PG method变体,利用随机滚动谱估计策略梯度,实现策略梯度的无偏估计,并在严格鞍点假设下,证明了算法的收敛性。最终,实验证明,通过重新设计奖赏函数,可以避免不良鞍点并获得更好的极限点。
Jun, 2019
本文提出一种名为STORM-PG的新算法,它采用SARAH类型的随机递归方差降低的策略梯度,具有对于STORM-PG具有严格的O(1/ε^3)样本复杂度界限,并避免了其他方差减小的策略梯度方法中存在的大批处理和小批处理之间的交替,从而允许较简单的参数调整,并在数值实验中表现出了与其他策略梯度算法相比的优越性。
Mar, 2020
本文提出了一种基于动量的策略梯度方法,利用自适应学习率,不需要任何大批量数据,以及基于新的动量方差降低技术和重要性采样,以及力学助理技术,从而提高学习效率。作者证明,该方法具有最佳的样本复杂度,并在实验中验证了其有效性。
Jul, 2020
本研究提出一种简单且有效的梯度截断机制,可用于加速政策梯度算法的变化减少技术,进而设计了一种名为TSIVR-PG的新方法,它不仅能够最大化累积奖励总和,还能在政策的长期访问分布上最大化一般效用函数,并对TSIVR-PG进行了理论分析。
Feb, 2021
该研究针对softmax policy gradient方法在无限时间马尔可夫决策过程中全局收敛的复杂度问题进行了探究,给出了反例并提示了在加速PG方法中调整更新规则或强制执行适当规则化的必要性。
Feb, 2021
通过最大化值函数来寻找感兴趣的策略的政策梯度方法在顺序决策、强化学习、游戏和控制中变得越来越受欢迎,然而,由于值函数的非凸性,保证政策梯度方法的全局最优性非常困难。本文重点介绍了近期在理解和开发具有全局收敛保证的政策梯度方法方面的进展,特别强调了其有关突出问题参数的有限时间收敛速度。
Oct, 2023
加速策略梯度(APG)是一种基于Nesterov加速梯度方法的强化学习(RL)算法,通过形式化证明APG在真梯度下以接近1/t^2的速度收敛,首次给出了NAG在RL背景下的全局收敛率,数值验证显示APG相比标准策略梯度能显著改善收敛行为。
Oct, 2023
通过比较基于动作和基于参数的探索,本论文介绍了一种理论框架以及对全局收敛性的研究,用于理解强化学习中连续问题的策略梯度方法,可以通过学习确定性策略来优化采样复杂度和性能之间的权衡。
May, 2024
从利用动量的角度开发了一种称为SPG-NM的快速SPG算法,将一种新型的负动量技术应用于经典的SPG算法,其计算复杂度与现代SPG类型算法几乎相同,并在两个经典任务中评估了该算法的结果,数值实验在不同设置下对我们的SPG-NM算法的稳健性进行了确认。
May, 2024