Mar, 2022

HOP: 历史和顺序感知的视觉语言导航预训练

TL;DR本文提出了一种新的历史和顺序感知的预训练范式,旨在提高视觉文本对应和决策能力,同时考虑了过去观察结果和未来操作预测,在R2R、REVERIE、NDH和RxR四个下游任务中与几个最先进的方法相比展示了显著的效果提高。