Apr, 2020

从网络上图像文本对入手,提升视觉语言导航能力

TL;DR本文提出了VLN-BERT模型,使用从网页中收集的图像-文本对进行预训练,将其与具有相似领域的含路径语言训练数据相结合,取得了4个百分点的成功率提升,并得出每个阶段都非常有效,结合后具有更进一步的协同作用。