本文提出一种改进的基于 policy gradient 的强化学习算法,通过在参数空间中探索、重用过去的 off-policy 数据和确定性的行为策略等技术,提高了数据效率、降低了梯度估计的方差并避免了局部最优解。在一系列连续控制基准任务上的实验表明,相较于标准的 policy gradient 方法,该算法能够成功可靠地使用更少的系统交互来学习解决方案。
May, 2019
本文提出了一种新的方法来预测在给定历史数据的情况下,加强学习策略的表现。通过在模型基础评估和重要性采样评估之间进行混合,提出一个基于双重稳健估计器扩展的新估计器,使得估计结果的均方误差通常比现有方法低几个数量级。
Apr, 2016
该研究针对 Markov 决策过程中的离策略策略优化问题,开发了一种新颖的离策略策略梯度方法,解决了基于之前行为策略采集数据的状态分布与学习策略下的状态分布不匹配的问题,并提供了该方法的理论收敛保证和实验验证。
Apr, 2019
本文系统地研究了深度强化学习中混合使用 on-policy 和 off-policy 更新方法,设计了一种基于控制变量方法的算法来有效结合两者,探讨了不同更新方法的优缺点和影响因素,并在多个开源深度控制测试中展示出了本算法的先进性。
Jun, 2017
政策梯度方法是广泛应用于具有连续动作空间的任务的强化学习算法,本研究探讨了远离策略目标和传统的在线策略目标之间的差异,并提供了首个理论分析以及条件减小差距的经验证据。
Feb, 2024
该研究提出了一个新的策略梯度方法,并利用脱机数据建立了一个新的识别结果,解决了条件矩限制,提供了有限样本的非渐变界,最后证明了在某些技术条件下提出的算法的全局收敛性,这是第一份研究脱机设置下的 POMDP 的策略梯度方法的文献。
May, 2023
在环境变化、干扰函数估计不一致和有限样本学习的情况下,本研究旨在评估策略值,并提出了一种扰动模型,可以根据转移观测对传统 MDP 进行边界估计。
Mar, 2024
本文探讨了基于测度值导数的随机梯度估计器及其在 actor-critic 策略梯度设置中的应用,结果显示它在低维和高维动作空间中能够达到与基于似然比或重参数化技巧的方法相当的性能。
Jul, 2021
本文提出一种无需特定抽样策略即可从起始状态重构策略梯度的新方法。通过使用来自离线数据流的梯度评论家的时序差异更新,开发了首个可以无模型地避开分布转移问题的估计器。实验证明,其具有良好的偏差 - 方差平衡和性能表现。
Feb, 2022
本文提出一种有效的基于参数探索的政策梯度算法,通过结合梯度估计的再利用、重要性采样和优化基准线等三个思想,成功地降低了算法的方差,从而实现计算高效的政策更新。理论分析和实验说明了该方法的实用性。
Jan, 2013