Dec, 2019

策略优化中可证明高效的探索

TL;DR本文提出了一种Proximal Policy Optimization算法的乐观变异版本(OPPO),它实现了在带有线性函数拟合、未知转移和对抗奖励的情况下,探索机制下的近似最优解,是第一种实现这一目标的算法。