CVPRApr, 2018

通过叙述式示范进行奖励学习

TL;DR该研究提出了一种联合学习自然语言基础和可教授行为策略的方法,并使用叙述视觉演示(NVD)对其进行监督。通过将指导者描述映射到感知奖励探测器,训练对应的行为策略。通过实验表明,具有自然语言指导的可教授代理人可以在测试时执行涉及新对象和新位置的行为。