May, 2023

视觉-语言导航的掩蔽路径建模

TL;DR本文提出了一种基于 Masked Path Modeling (MPM) 的预训练方法,通过让代理自主探索导航环境并收集其路径以及使用收集的数据进行训练,有效提高了视觉和语言导航代理在各种指令复杂度下的行动生成能力。