ECCVNov, 2021

多模态变长记忆转换器用于视觉语言导航

TL;DR此篇研究提出了一种基于视觉和自然语言导航的多模态变长记忆转换器(MTVM)方法,用于模拟时间上下文,通过在存储器库中直接存储先前激活来跟踪导航轨迹,并提出了一种内存感知一致性损失来提高模型的性能。通过在 R2R 和 CVDN 数据集上的评估,该模型在验证集和测试集的成功率分别提高了 2%且将 CVDN 测试集的目标处理减少了 1.6m。