ICLRMay, 2020

深度策略梯度的实现问题: PPO 和 TRPO 的案例研究

TL;DR通过对两种流行算法(PPO 和 TRPO)的案例研究,我们研究了深度策略梯度算法中算法进展的根源,并调查了 “代码级优化” 的后果:这些优化仅出现在其他实现中或被描述为核心算法的辅助详细信息,它们似乎具有次要影响,但实际上极大地影响了代理行为。我们的结果表明,它们(a)负责 PPO 在累积奖励方面比 TRPO 获得的大部分收益,并且(b)从根本上改变了 RL 方法的功能。