Sep, 2018

鉴别器-演员-评论家: 解决对抗性模仿学习中样本低效和奖励倾向的问题

TL;DR使用新算法“Discriminator-Actor-Critic”,提出解决基于Adversarial Imitation Learning框架的两个问题:隐式偏差和与环境产生大量交互所需的复杂性。该算法使用离线策略强化学习来降低策略-环境交互采样复杂度,并且由于我们的奖励函数是设计为无偏差的,因此可以在许多问题上应用而不进行任何任务特定的调整。