ICLRFeb, 2021

对抗引导的 演员 - 评论家算法

TL;DR本研究提出使用敌对模型来促进探索及提高效率,从而解决各类探索困难且奖励很少的问题,发现使用 Adversarially Guided Actor-Critic 比当前的现有方法都更加有效。