Nov, 2022

ABC: 离线模式寻求模仿学习的对抗行为克隆

TL;DR本文介绍了行为克隆(BC)的关键缺陷,由于 BC 是以最大似然为目标函数,因此在以高斯函数表示学习代理的策略时,BC 对状态条件专家动作分布求取均值导致了问题。 为了解决这个问题,我们引入了 ABC 方法,它包含 GAN 训练的元素,具有寻找众数的性质,并在玩具领域和 DeepMind 控制套件上的 Hopper 域上进行评估,并表明它胜过标准的 BC。