本文系统地研究了深度强化学习中混合使用on-policy和off-policy更新方法,设计了一种基于控制变量方法的算法来有效结合两者,探讨了不同更新方法的优缺点和影响因素,并在多个开源深度控制测试中展示出了本算法的先进性。
Jun, 2017
提出一种基于离线数据的信任区域方法Trust-PCL,能够在强化学习中稳定策略优化算法,使用相对熵正则化器优化最大回报目标的最优策略和状态值满足一组多步路径一致性,提高了样本效率和解决方案质量。
Jul, 2017
本文介绍了一种名为Truly PPO的增强PPO方法,针对PPO在优化行为方面存在的问题进行了改进,通过使用新的剪辑函数来支持回滚行为,使用基于可信区域的触发条件替换剪辑的触发条件,从而提供了保证的拟态策略性能单调改进,从而改善了PPO在样本效率和性能方面的表现。
Mar, 2019
本文研究使用神经网络来完成深度强化学习中的策略优化,其中包括策略梯度和动作价值函数。在此基础上,通过分析无限维镜像下降的全局收敛性,证明了 PPO 和 TRPO 在使用过度参数化神经网络时收敛于全局最优策略,且收敛速度为次线性。
Jun, 2019
我们提出了一种新的强化学习算法:Hindsight Trust Region Policy Optimization,它通过利用hindsight来提高稀疏抽奖的表现,并引入了QKL和HGF两种方法来提高学习稳定性和表现。我们在各种稀疏抽奖任务中评估了HTRPO,包括简单的基准测试、基于图像的 Atari 游戏和模拟机器人控制。消融研究表明,QKL和HGF对学习稳定性和高性能有很大贡献。比较结果表明,在所有任务中,HTRPO始终优于TRPO和HPG。
Jul, 2019
提出了一种称为镜像下降策略优化(Mirror Descent Policy Optimization,MDPO)的高效强化学习算法,MDPO是一个迭代更新策略的算法,其目标函数由标准强化学习目标的线性化和一个限制连续策略之间接近的接近项组成,是由MD原则推导而来的,同时通过采取多个梯度步骤进行逼近。
May, 2020
研究利用理论达到策略提升保证的同时,结合较高的数据效率进行决策,通过广义的近端优化,基于样本的有效复用,实现了稳定性和样本效率之间的有效平衡,从而在表现上有了提高。
Oct, 2021
本文介绍了一种名为Robust Policy Optimization的算法,该算法应用于强化学习中,利用扰动分布来提高策略的熵,提高探索性能,取得了比PPO等算法更好的性能表现,并在多个环境中表现出鲁棒性能。
Dec, 2022
本文探讨基于KL散度的信任域方法在强化学习中的应用,进而提出基于Wasserstein和Sinkhorn两种新的信任域方法用于策略优化,并在多个任务中进行了实验验证。
Jun, 2023
通过简单的目标调整,我们发现在连续行动空间中,将 Proximal Policy Optimization (PPO) 的重要性采样目标替换为截断等价的基础策略梯度可以持续改善其性能,并且这种悲观的优化促进了增强性探索,从而在单任务、约束和多任务学习中产生了改进的学习效果,而不增加显著的计算成本或复杂性。
Nov, 2023