Oct, 2019

HIGhER: 使用回顾生成技术提高经验重演的指令跟踪

TL;DR本文提出了一种名为 Hindsight Generation for Experience Replay (HIGhER) 的新方法,其中当智能体不能完成指令时,它学习输出一条新指令来匹配智能体的轨迹,并赋予该回合一个积极的回报,从而消除了需要外部专家干预的需求。在 BabyAI 环境中,我们展示了我们的方法的效率,并展示了它如何补充其他指令跟随方法。