Oct, 2018

PPO-CMA:具有协方差矩阵适应性的近端策略优化

TL;DR提出了 Proximal Policy Optimization (PPO) 算法的改进版本 PPO-CMA,通过 adaptively 扩大 exploration variance 来加速算法优化速度,相对于传统 PPO 算法在 Roboschool continuous control benchmarks 任务中表现显著提升,且不需要耗费大量篇幅调节参数。