Sep, 2017

OptionGAN: 使用生成对抗逆强化学习学习联合奖励策略选项

TL;DR本文介绍了一种以对手生成网络为基础的新方法,以同时恢复反演强化学习中的奖励和策略选项,用于解决从专家演示中学习复杂任务的奖励函数。该方法在简单和复杂的连续控制任务中表现良好,展示了一次转移学习中的显著性能提高。