Jan, 2022

镜像学习: 策略优化的统一框架

TL;DR本研究提出了一种名为Mirror Learning的新理论框架,为包括TRPO和PPO在内的大类算法提供理论保证,这说明现代深度强化学习算法的实际表现是其理论特性的直接结果,而不是先前提到的近似类比,从而使我们自由地探索新颖的、理论上可行的RL算法,这是一个迄今未开发的奇妙世界。