Jun, 2020

AMIGo学习: 对抗动机本质目标

TL;DR提出了一种基于元学习的AMIGo智能体,该智能体包含一个目标生成教师,该教师提出具有对抗性的内在目标来训练一个学生策略,使其在缺少环境奖励时可以学到普遍技能,通过自我建议的目标产生自然课程,并在固有动机和最新RL方法失败的情况下解决具有挑战性的生成式任务。