Jan, 2024

简单政策优化

TL;DR本文介绍了 SPO(简化策略优化)算法,该算法通过引入一种新的 KL 散度夹紧方法,能够在几乎所有环境中有效地强制执行信任区域约束,同时仍然保持一阶算法的简单性。在 Atari 2600 环境中进行的比较实验表明,SPO 有时比 PPO 算法更强大。