CVPRFeb, 2020

通过预训练实现通用的视觉语言导航智能体学习

TL;DR本文提出了第一个预训练和微调范式,用于视觉语言导航 (VLN) 任务。通过自监督学习方式训练大量的图像 - 文本 - 动作三元组,预训练模型提供通用的视觉环境和语言指令表示,可以轻松地用于现有的 VLN 框架。通过在三个 VLN 任务上验证性能可行性,验证了该方法的有效性和推广性。