Jan, 2022

PPO 算法中可能不需要使用比率剪裁

TL;DR本文探讨了比例剪切 PPO 方法的缺陷,提出了一种名为 ESPO 的早停策略优化算法,通过在多个连续控制任务上的比较,发现 ESPO 显著优于 PPO,而且能够轻松扩展到使用多个工作器进行分布式训练。