一种用于导航的循环视觉语言 BERT 模型
在 Vision-and-Language Navigation (VLN) 领域中,我们提出了一种基于 Transformer 的生成预训练模型(VLN-GPT),通过建模轨迹序列依赖关系来增强效率,并在训练过程中采用离线预训练和在线优化的方法,性能评估表明 VLN-GPT 超越了复杂的基于编码器的模型。
May, 2024
此篇研究提出了一种基于视觉和自然语言导航的多模态变长记忆转换器(MTVM)方法,用于模拟时间上下文,通过在存储器库中直接存储先前激活来跟踪导航轨迹,并提出了一种内存感知一致性损失来提高模型的性能。通过在 R2R 和 CVDN 数据集上的评估,该模型在验证集和测试集的成功率分别提高了 2%且将 CVDN 测试集的目标处理减少了 1.6m。
Nov, 2021
通过引入一种历史感知的多模式转换器来将长期历史包含在多模式决策中,以在视觉和语言导航中构建自主的视觉代理,进而通过使用强化学习进一步优化导航策略。
Oct, 2021
在视觉语言导航(VLN)任务中,代理器需要按照自然语言指令导航到目的地。本文提出了一套方法来解决现有大型语言模型在构建记忆和导航策略多样性方面面临的问题,通过维护一个包含导航历史、视点、物体及它们的空间关系的拓扑地图来增强导航能力,并通过引入导航思维链模块富化导航策略多样性,最终通过整合感知和动作预测模块建立了一个能提高大型语言模型导航能力和解释性的流水线。实验证明,该方法有效地增强了大型语言模型的导航能力并提高了导航推理的可解释性。
May, 2024
本文研究了视觉与语言导航的多模态任务,通过一系列诊断实验揭示不同类型的导航智能体的注意力焦点和跨模态理解能力,发现 Transformer 模型相对其他模型更具有对物体的跨模态理解能力,同时对于模型声称的跨模态对齐方式存在质疑。
Mar, 2021
本论文提出了一种使用多模态对齐的鉴别器来评估视觉和语言导航任务中的自然语言指令,以及通过预训练组件暖启动 VLN 代理以改善其在以前看不见的环境中的表现的方法。
May, 2019
该论文提出了一种双语义感知递归全局自适应网络(DSRG),包括指导语言模块和外貌 - 语义视觉模块,用于视觉和语言语义学习,以及全球自适应聚合模块和递归记忆融合模块,用于对全景观测进行显式内存融合。 虽然在 R2R 和 REVERIE 数据集上进行了广泛的实验,并证明该方法的实际性和有效性高于现有方法。
May, 2023
我们的方法将预先训练的视觉和语言表示技术适应于相关领域的任务,通过在跨模态序列对齐和序列一致性任务中适应这些表示技术,从而提高了在 Room-to-Room(R2R) 带权路径成功率(SPL)度量方面的性能。
Aug, 2019
以连续学习为基础,提出了视觉语言导航的连续学习范式,通过重新组织已有的导航数据集,提出了 CVLN-I 和 CVLN-D 两个用于训练和评估 CVLN 代理的数据集,进一步提出了 Perplexity Replay (PerpR) 和 Episodic Self-Replay (ESR) 两种基于回放的新方法,通过广泛实验验证了所提方法的有效性。
Mar, 2024