Jul, 2017

近端策略优化算法

TL;DR本研究提出了一种新的针对增强学习的策略梯度方法,称为近端策略优化(PPO),通过与环境的交互采样数据,并使用随机梯度上升优化“替代”目标函数,不同于标准的策略梯度方法,该方法可以实现多个小批量更新周期,实验结果表明PPO在模拟机器人运动和Atari视频游戏玩耍等基准任务上的表现优于其他在线策略梯度方法,同时在样本复杂度、实现简单性和时间效率等方面取得了有利的平衡。