本文研究了视觉与语言导航的多模态任务,通过一系列诊断实验揭示不同类型的导航智能体的注意力焦点和跨模态理解能力,发现 Transformer 模型相对其他模型更具有对物体的跨模态理解能力,同时对于模型声称的跨模态对齐方式存在质疑。
Mar, 2021
为了成功,视觉语言导航(VLN)代理人必须能够根据周围环境将指令与行动联系起来。本研究开发了一种研究基于技能的代理人行为的方法,检查现有代理人在停止、转向和移动向指定对象或房间方面如何准确地进行指令的实施。我们的方法基于生成针对不同技能的干预措施,并测量代理人预测的变化。我们展示了一个详细的案例研究,分析了最新代理人的行为,然后比较了多个代理人在技能特定的能力评分方面。这种分析表明,训练中的偏见对代理人的行为具有持久影响,并且现有的模型能够建立简单的指称表达式。我们在模型之间的比较中发现,技能特定的评分与整体 VLN 任务表现的改进相关。
Jul, 2023
研究通过不同的模态,将指示性的语言指令用于虚拟环境导航中,发现使用不同模态对于所使用的 VLN 模型产生不同的影响,并提出使用专家模型集成不同模态信息以提高模型性能。
Jun, 2019
本文针对视觉语言导航任务提出了一种基于自然语言的导航方法,通过一个新的衡量指标来度量环境导航中代理人遵循指令的准确度。
Sep, 2021
本论文提出了一种使用多模态对齐的鉴别器来评估视觉和语言导航任务中的自然语言指令,以及通过预训练组件暖启动 VLN 代理以改善其在以前看不见的环境中的表现的方法。
May, 2019
本文综述了 Vision-and-Language Navigation(VLN)这一领域的现有研究,包括任务、评价指标、方法等,并通过结构化分析当前进展和挑战,强调了当前 VLN 的局限性和未来工作的机遇,是 VLN 研究社区的详尽参考。
Mar, 2022
本研究探讨了在室外场景中,视觉代理如何跨越未知地形实现指令导航,发现与室内情况相比,图形化表达方式对室外导航具有更大的影响,因此未来的研究需关注在不同地形环境中的规模和多样性增长。
通过对 Room-to-Room 数据集的评估提出新的评价指标 CLS,并且创建了新数据集 Room-for-Room (R4R) 用于指导指令跟踪的任务,同时通过比较与基准系统,表明重视指令的代理程序优于重视目标完成的代理程序。
我们的方法将预先训练的视觉和语言表示技术适应于相关领域的任务,通过在跨模态序列对齐和序列一致性任务中适应这些表示技术,从而提高了在 Room-to-Room(R2R) 带权路径成功率(SPL)度量方面的性能。
Aug, 2019
本文介绍了数据扩充方法以改善现有的人工智能模型在 VLN 任务中性能表现不佳的问题,该方法利用了 Matterport3D 数据集中的元数据信息来引导新的导航指令的生成,并在未见过的环境中使性能提高了 8%。
Oct, 2022