Nov, 2018

Touchdown: 视觉街景中的自然语言导航和空间推理

TL;DR本篇论文研究了通过导航和空间推理任务共同推理语言和视觉的问题,介绍了 Touchdown 任务和数据集,通过真实的城市环境中的导航指令和自然语言来寻找隐藏在目标位置的物体。数据集包含 9,326 个英文指令和空间描述的示例,经验性分析表明,数据对现有方法提出了开放性的挑战,定性的语言分析表明,与相关资源相比,数据利用了更丰富的空间推理。