镜像下降策略优化
本文提出了一种名为TRPO的实用算法,通过优化政策来达到保证单调改善的目的,并通过一系列实验展示了其在学习模拟机器人的Swimming、Hopping以及Walking,并使用屏幕图像玩Atari游戏等众多方面的优越表现。
Feb, 2015
本文研究使用神经网络来完成深度强化学习中的策略优化,其中包括策略梯度和动作价值函数。在此基础上,通过分析无限维镜像下降的全局收敛性,证明了 PPO 和 TRPO 在使用过度参数化神经网络时收敛于全局最优策略,且收敛速度为次线性。
Jun, 2019
本文考虑在强化学习中使用的一种流行算法Trust region policy optimization(TRPO)与传统的凸分析中自然的信任域方法之间的关系,证明了TRPO的适应性调节机制实际上是传统信任域方法的RL版本,并在规则化MDP中,展示了快速收敛速率的结果,这是关于规则化即时成本或奖励时在RL中的首个更好的结果。
Sep, 2019
在这篇论文中,我们提出了一种新的算法,它通过一种接近性项稳定了策略改进,并限制由连续策略引发的折扣状态行动访问分布彼此接近,并通过离线训练和对抗性学习的方式学习这种接近性项。我们在基准高维控制任务中实证表明,我们提出的方法可以对稳定性产生有益影响,并提高最终性能.
Mar, 2020
本文提出了新的政策镜反射(PMD)方法,用于解决具有强凸性或一般凸性正则化的强化学习(RL)问题,并使用不同的采样方案建立了这些问题的随机对应物。我们证明了PMD方法在快速收敛到全局最优解方面的线性速率,提出了计算这些正则化梯度的复杂度,并展示了此正则化的应用性。
Jan, 2021
提出了一种广义的策略镜像下降算法 (GPMD) 以解决正则化强化学习问题,具有线性收敛特性,支持一般类别的凸正则化器,并在数值实验中得到验证。
May, 2021
本研究提出了一种名为Mirror Learning的新理论框架,为包括TRPO和PPO在内的大类算法提供理论保证,这说明现代深度强化学习算法的实际表现是其理论特性的直接结果,而不是先前提到的近似类比,从而使我们自由地探索新颖的、理论上可行的RL算法,这是一个迄今未开发的奇妙世界。
Jan, 2022
本文探讨基于KL散度的信任域方法在强化学习中的应用,进而提出基于Wasserstein和Sinkhorn两种新的信任域方法用于策略优化,并在多个任务中进行了实验验证。
Jun, 2023
提出了一种名为$h$-PMD的新型PMD算法类,它将多步贪心策略改进与PMD更新规则相结合,以解决具有lookahead深度$h$的折扣无限时间马尔可夫决策过程,并且拓展到线性函数逼近以适应大状态空间。
Mar, 2024
该论文介绍了一种新的基于策略的扩展方法——反思性策略优化(RPO),它将过去和未来的状态-动作信息结合起来以进行策略优化,从而使智能体能够自我审视并在当前状态下修改其动作。理论分析证实了政策绩效的递增和解集空间的收缩,从而加快了收敛过程。经验证据表明,在两个强化学习基准测试中,RPO在样本效率方面表现出了显著的优势。
Jun, 2024