BriefGPT.xyz
Ask
alpha
关键词
ratio clipping
搜索结果 - 1
PPO 算法中可能不需要使用比率剪裁
本文探讨了比例剪切 PPO 方法的缺陷,提出了一种名为 ESPO 的早停策略优化算法,通过在多个连续控制任务上的比较,发现 ESPO 显著优于 PPO,而且能够轻松扩展到使用多个工作器进行分布式训练。
PDF
2 years ago
Prev
Next