本研究提出了一种新的针对增强学习的策略梯度方法,称为近端策略优化(PPO),通过与环境的交互采样数据,并使用随机梯度上升优化“替代”目标函数,不同于标准的策略梯度方法,该方法可以实现多个小批量更新周期,实验结果表明PPO在模拟机器人运动和Atari视频游戏玩耍等基准任务上的表现优于其他在线策略梯度方法,同时在样本复杂度、实现简单性和时间效率等方面取得了有利的平衡。
Jul, 2017
研究线性二次游戏中政策优化寻找纳什均衡的全局收敛性,开发了三种投影嵌套-梯度方法并给出了满意的收敛性证明和模拟结果,是对零和Markov博弈政策优化强化学习算法理论方面的探索。
May, 2019
该研究探讨了结构性特征对于使得Policy gradients methods有权达到最优点的影响,并且当这些条件变强时,可以证明其满足Polyak-lojasiewicz条件从而有较快的收敛速度。
Jun, 2019
该研究通过引入泛函的方法,提出了一种新的策略梯度算法,用于解决马尔可夫决策问题中带通用上限效用函数的策略优化问题,并证明了其全局收敛性和收敛速度。
Jul, 2020
本论文在两个代理竞争式强化学习环境 (即零和随机博弈) 中,通过独立学习算法和政策梯度方法,证明了通过双时间尺度规则,两个代理的策略将收敛于游戏的极小值-最大值均衡点。这是首个有限样本收敛结果的独立政策梯度方法在竞争 RL中的表现;先前的工作主要集中在集中式,协调过程的均衡计算上。
Jan, 2021
本文使用最近为非凸优化分析SGD开发的工具,获得了vanilla policy gradient(PG)的收敛性和样本复杂性保证。
Jul, 2021
本文研究应用动量项的随机策略梯度方法的全局收敛性,并展示了在softmax和非退化Fisher策略参数化中增加动量项可以提高PG方法的全局最优采样复杂度。此外,作者提供了分析随机PG方法全局收敛速率的通用框架。
Oct, 2021
通过最大化值函数来寻找感兴趣的策略的政策梯度方法在顺序决策、强化学习、游戏和控制中变得越来越受欢迎,然而,由于值函数的非凸性,保证政策梯度方法的全局最优性非常困难。本文重点介绍了近期在理解和开发具有全局收敛保证的政策梯度方法方面的进展,特别强调了其有关突出问题参数的有限时间收敛速度。
Oct, 2023
强化学习问题的非凸目标函数使得政策梯度算法收敛到一阶稳定点,但应用于无限时限贴现设置的实际实现包括Monte-Carlo方法和演员-评论家方法,在使用有偏梯度估计器的梯度下降更新时,已有的结果只考虑了无偏梯度估计器。我们通过利用非凸优化的证明技术,对有偏的政策梯度算法收敛到二阶稳定点的初步结果进行了展示,并旨在为演员-评论家算法提供首个有限时间的二阶收敛性分析。
Nov, 2023
通过梯度下降的原始对偶算法,我们提出了一种通用框架来解决受限强化学习问题,并介绍了基于动作和参数的版本C-PGAE和C-PGPE。我们在受约束控制问题上进行了数值验证,并与最先进的基准进行了比较,证明了算法的有效性。
Jul, 2024