Mar, 2019

真正靠近策略优化

TL;DR本文介绍了一种名为 Truly PPO 的增强 PPO 方法,针对 PPO 在优化行为方面存在的问题进行了改进,通过使用新的剪辑函数来支持回滚行为,使用基于可信区域的触发条件替换剪辑的触发条件,从而提供了保证的拟态策略性能单调改进,从而改善了 PPO 在样本效率和性能方面的表现。