GridMM:视觉语言导航的网格存储映射
在视觉语言导航(VLN)任务中,代理器需要按照自然语言指令导航到目的地。本文提出了一套方法来解决现有大型语言模型在构建记忆和导航策略多样性方面面临的问题,通过维护一个包含导航历史、视点、物体及它们的空间关系的拓扑地图来增强导航能力,并通过引入导航思维链模块富化导航策略多样性,最终通过整合感知和动作预测模块建立了一个能提高大型语言模型导航能力和解释性的流水线。实验证明,该方法有效地增强了大型语言模型的导航能力并提高了导航推理的可解释性。
May, 2024
提出一种名为结构化场景记忆(SSM)的模型架构,通过具有采集 - 读取控制器的全面行动空间和以前视经验的编码来辅助导航决策,并实现长程推理和全局规划,证明在 R2R 和 R4R 度量标准上实现了最先进的表现。
Mar, 2021
该论文提出了一种双语义感知递归全局自适应网络(DSRG),包括指导语言模块和外貌 - 语义视觉模块,用于视觉和语言语义学习,以及全球自适应聚合模块和递归记忆融合模块,用于对全景观测进行显式内存融合。 虽然在 R2R 和 REVERIE 数据集上进行了广泛的实验,并证明该方法的实际性和有效性高于现有方法。
May, 2023
本文提出了一种跨模态记忆网络(CMN),通过两个记忆模块(L-mem 和 V-mem)协同学习,实现了历史导航决策的探索,有效地解决了视觉对话导航中的语言意图处理问题,并在 CVDN 数据集上取得了显著的性能提升。
Mar, 2020
本研究提出采用混合拓扑度量图来实现视觉和语言导航,其中拓扑地图用于长期规划,度量地图用于短期推理,通过深度特征和预训练框架学习语言信息地图表示,增强了跨模态接地和促进最终的语言引导导航目标,实验证明了地图路线在 VLN 中的有效性,该方法在三个 VLN 基准测试中取得了最新的最佳效果。
Dec, 2022
基于视觉观察和自然语言指令,本论文提出了一种基于体素化环境表示的视觉语言导航模型,在多任务学习的影响下,预测 3D 占用、3D 房间布局和 3D 边界框,并通过在线采集的环境表示进行体积状态估计和建立序列记忆,取得了在 VLN 基准测试(R2R,REVERIE 和 R4R)上最先进的性能。
Mar, 2024
此篇研究提出了一种基于视觉和自然语言导航的多模态变长记忆转换器(MTVM)方法,用于模拟时间上下文,通过在存储器库中直接存储先前激活来跟踪导航轨迹,并提出了一种内存感知一致性损失来提高模型的性能。通过在 R2R 和 CVDN 数据集上的评估,该模型在验证集和测试集的成功率分别提高了 2%且将 CVDN 测试集的目标处理减少了 1.6m。
Nov, 2021
本文提出了一种新的结构化状态演化(SEvol)模型,采用基于图的特征来表示导航状态,利用增强学习策略通过 Reinforced Layout clues Miner(RLM)挖掘和检测关键的布局图,并通过结构演化模块(SEM)来维护结构化基于图的状态,从而提高了 Vision-and-language Navigation 任务的性能。
Apr, 2022
本研究提出了 VLMaps,一种将 3D 物理世界重建与预训练的视觉语言特征直接融合的空间地图表示,其能够通过大型语言模型将自然语言命令直接转化为空间导航目标。VLMaps 能够在不需要额外标注数据的情况下自主构建,并且可以与多种类型的机器人共享,能够进行导航的同时生成新的障碍物地图。实验表明,VLMaps 可以支持人类语言含义更丰富的导航指令。
Oct, 2022