Jul, 2021

邻居视图增强的视觉语言导航模型

TL;DR本文提出了一种新的多模块的 Neighbor-View Enhanced Model (NvEM) 方法,通过利用相邻视图的视觉上下文信息和注意机制应对视觉和文本匹配不足的问题,并采用动作模块进行操纵指导,通过实验在 R2R 和 R4R 基准测试中展示了其效果的优越性。