EMNLPSep, 2018

利用视觉目标预测在 3D 环境中将指令映射到动作

TL;DR该研究倡导将指令执行分解为目标预测和行为生成,并介绍了一种利用 LINGUNET 将观察值映射到目标,然后生成完成目标所需的行动的模型。该模型仅通过演示进行训练,并引入了两个指令跟随基准来评估该方法:LANI 和 CHAI。我们的评估证明了我们的模型分解的优势,并阐明了我们的新基准所提出的挑战。