Mar, 2019

真正靠近策略优化

TL;DR本文介绍了一种名为Truly PPO的增强PPO方法,针对PPO在优化行为方面存在的问题进行了改进,通过使用新的剪辑函数来支持回滚行为,使用基于可信区域的触发条件替换剪辑的触发条件,从而提供了保证的拟态策略性能单调改进,从而改善了PPO在样本效率和性能方面的表现。