Sep, 2018
鉴别器 - 演员 - 评论家:解决对抗性模仿学习中样本低效和奖励倾向的问题
Discriminator-Actor-Critic: Addressing Sample Inefficiency and Reward Bias in Adversarial Imitation Learning
Ilya Kostrikov, Kumar Krishna Agrawal, Debidatta Dwibedi, Sergey Levine, Jonathan Tompson
TL;DR使用新算法 “Discriminator-Actor-Critic”,提出解决基于 Adversarial Imitation Learning 框架的两个问题:隐式偏差和与环境产生大量交互所需的复杂性。该算法使用离线策略强化学习来降低策略 - 环境交互采样复杂度,并且由于我们的奖励函数是设计为无偏差的,因此可以在许多问题上应用而不进行任何任务特定的调整。