Jun, 2022

模仿过去的成功可能不是最优的选择

TL;DR本文研究提出了基于结果条件的模仿学习方法与强化学习中的奖励最大化问题之间的关系,并证明了现有方法并不一定能够改善策略,但是通过一些简单的修改得到的方法可以保证策略的改进。