用随机策略梯度学习最优确定性策略
本文提出一种改进的基于 policy gradient 的强化学习算法,通过在参数空间中探索、重用过去的 off-policy 数据和确定性的行为策略等技术,提高了数据效率、降低了梯度估计的方差并避免了局部最优解。在一系列连续控制基准任务上的实验表明,相较于标准的 policy gradient 方法,该算法能够成功可靠地使用更少的系统交互来学习解决方案。
May, 2019
本文研究了策略梯度方法在强化学习中的应用,提供了在马尔可夫决策过程中对其计算、逼近和样本量特征的可证特征化,并探究了参数化策略和表格化策略参数化的差异,其中一个主要贡献是提供了平均情况下的逼近保证,通过与分布转变下的监督学习形式上的联系来避免了最坏情况下对状态空间大小的显式依赖。
Aug, 2019
本研究从非凸优化的角度出发,提出一种新的 PG method 变体,利用随机滚动谱估计策略梯度,实现策略梯度的无偏估计,并在严格鞍点假设下,证明了算法的收敛性。最终,实验证明,通过重新设计奖赏函数,可以避免不良鞍点并获得更好的极限点。
Jun, 2019
我们提出了一种新的分析方法,并区分了探索技术的两个不同影响。首先,它们使得能够平滑学习目标并消除局部最优解,同时保留全局最优解。其次,它们修改了梯度估计,增加了随机参数更新最终提供最优策略的概率。在这些影响的基础上,我们讨论并通过熵奖励进行了实证研究,突出了其局限性,并为该策略的设计和分析开辟了未来的研究方向。
Jan, 2024
本文提出一种有效的基于参数探索的政策梯度算法,通过结合梯度估计的再利用、重要性采样和优化基准线等三个思想,成功地降低了算法的方差,从而实现计算高效的政策更新。理论分析和实验说明了该方法的实用性。
Jan, 2013
介绍了 Policy Cover-Policy Gradient (PC-PG) 算法,其通过学习的策略集 (策略保证) 来平衡探索和开发的权衡,同时具有强大的模型误差优化保证
Jul, 2020
论文提出了一种集成了随机策略梯度和确定性策略梯度的预期策略梯度,通过对动作的积分来估算梯度,证明了其可以降低梯度估算的方差,对于高斯探索,通过设置动作的海森矩阵的指数作为协方差比标准探索更优,在四个 MuJoCo 域中明显优于使用奥恩斯坦 - 乌伦贝克启发式的确定性策略梯度.
Jun, 2017
本研究提供了关于策略梯度算法的新的理论解释和证明。同时,文章还提出,策略梯度算法中的探索是计算当前政策回报的连续,而策略的方差应该是适应历史的函数,以避免局部极值,而不是为了最大化政策的回报。
May, 2023
开发了具有全局最优性保证和复杂度分析的政策梯度方法,用于处理模型不匹配下的鲁棒强化学习,提出了鲁棒策略梯度和平滑的鲁棒策略梯度方法,并将方法推广到广泛的非模型设置下,提供了仿真结果证明了方法的鲁棒性。
May, 2022
本文研究应用动量项的随机策略梯度方法的全局收敛性,并展示了在 softmax 和非退化 Fisher 策略参数化中增加动量项可以提高 PG 方法的全局最优采样复杂度。此外,作者提供了分析随机 PG 方法全局收敛速率的通用框架。
Oct, 2021