具有样本重用的广义近端策略优化
该论文通过分析 extsc{Tree Backup} 和 extsc{Retrace} 算法在线性函数逼近下的不稳定性,提出了一种基于二次凸凹鞍点公式的稳定高效梯度下降算法,并证明了其收敛性和有限样本上界,同时还提供了对其他算法收敛速度的新证明。
May, 2017
本研究提出了一种新的针对增强学习的策略梯度方法,称为近端策略优化(PPO),通过与环境的交互采样数据,并使用随机梯度上升优化“替代”目标函数,不同于标准的策略梯度方法,该方法可以实现多个小批量更新周期,实验结果表明PPO在模拟机器人运动和Atari视频游戏玩耍等基准任务上的表现优于其他在线策略梯度方法,同时在样本复杂度、实现简单性和时间效率等方面取得了有利的平衡。
Jul, 2017
本文提出了一种名为排名策略梯度方法(RPG)的强化学习方法,它可以提高样本有效性,实现离线学习,同时大大降低了状态空间维度的影响。实验结果证明,在离线学习框架中,RPG方法可以较大程度降低样本复杂度,从而与现有技术相比具有更好的性能。
Jun, 2019
本文研究了在线学习与离线数据集学习两种环境下的样本有效的强化学习,提出了一个新的策略微调问题——在线 RL 中,学习者在某种意义下可以接近最优策略,并在马尔科夫决策过程(MDP) 中解决了这个问题。我们还提出了一个新的混合离线/在线策略微调算法,达到了更好的样本复杂度。
Jun, 2021
该研究提出了一类广义政策提升算法,将在线算法和离线算法相结合,在保证策略改进的同时,实现了高效数据复用,为深度强化学习的实际应用提供了可行性。
Jun, 2022
该论文提出了一种基于SMR(样本多次重用)的强化学习方法,通过多次重复使用样本,可以在单次优化循环中更好地利用它们,从而显著提高了基本方法的样本效率。
May, 2023
本文提出了一种新的算法,采用样本内策略迭代技术,通过在最小化数据收集策略的偏差的同时优化控制策略,可以显著提高离线强化学习中行为规则方法的性能,从而实现对以前收集的数据的有效控制。最后,基于D4RL基准测试的实验结果表明,该算法在大多数任务上优于以前的最先进方法。
Jun, 2023
透过引入自适应的离策略采样方法,本文提出了一种能够改进策略梯度算法数据效率的采样方法 PROPS 去减少采样误差并通过调整旧策略的数据分布使其接近策略梯度算法的数据要求,实验证明此方法能够减少采样误差并提高策略梯度算法的数据效率。
Nov, 2023
我们提出了一个新颖的基于后验采样的离线RL算法,该算法在样本效率方面表现出与基于版本空间和经验正则化的算法可比拟的性能,并且具有频率主义的亚优性界限。
Jan, 2024
通过交替使用最小方差行为策略的对交叉熵估计和实际策略优化,结合防御性重要性采样,我们提供了一个迭代算法,理论上分析了该算法的收敛速度,并提供了经过数值验证的实际版本,展示了在策略梯度估计方差和学习速度方面的优势。
May, 2024