Sep, 2018

鉴别器 - 演员 - 评论家:解决对抗性模仿学习中样本低效和奖励倾向的问题

TL;DR使用新算法 “Discriminator-Actor-Critic”,提出解决基于 Adversarial Imitation Learning 框架的两个问题:隐式偏差和与环境产生大量交互所需的复杂性。该算法使用离线策略强化学习来降低策略 - 环境交互采样复杂度,并且由于我们的奖励函数是设计为无偏差的,因此可以在许多问题上应用而不进行任何任务特定的调整。