评估视觉与语言导航的解释方法
本文介绍了数据扩充方法以改善现有的人工智能模型在 VLN 任务中性能表现不佳的问题,该方法利用了 Matterport3D 数据集中的元数据信息来引导新的导航指令的生成,并在未见过的环境中使性能提高了 8%。
Oct, 2022
本文研究了视觉与语言导航的多模态任务,通过一系列诊断实验揭示不同类型的导航智能体的注意力焦点和跨模态理解能力,发现 Transformer 模型相对其他模型更具有对物体的跨模态理解能力,同时对于模型声称的跨模态对齐方式存在质疑。
Mar, 2021
本文综述了 Vision-and-Language Navigation(VLN)这一领域的现有研究,包括任务、评价指标、方法等,并通过结构化分析当前进展和挑战,强调了当前 VLN 的局限性和未来工作的机遇,是 VLN 研究社区的详尽参考。
Mar, 2022
长期愿景是提高代理者和环境的感知、理解和交互能力,以实现具体导航的视觉 - 语言导航(VLN)作为实现具体导航的核心研究路径,关注代理者如何使用自然语言与人类进行有效沟通,接收和理解指令,并最终依靠视觉信息实现准确的导航。此综述系统回顾了 VLN 的研究进展并详细介绍了具体导航的研究方向,包括系统架构、基于方法的研究和常用基准数据集,全面分析了当前研究面临的问题和挑战,并探讨了该领域的未来发展方向,旨在为研究人员提供实用的参考。
Feb, 2024
本论文提出了一种使用多模态对齐的鉴别器来评估视觉和语言导航任务中的自然语言指令,以及通过预训练组件暖启动 VLN 代理以改善其在以前看不见的环境中的表现的方法。
May, 2019
为了成功,视觉语言导航(VLN)代理人必须能够根据周围环境将指令与行动联系起来。本研究开发了一种研究基于技能的代理人行为的方法,检查现有代理人在停止、转向和移动向指定对象或房间方面如何准确地进行指令的实施。我们的方法基于生成针对不同技能的干预措施,并测量代理人预测的变化。我们展示了一个详细的案例研究,分析了最新代理人的行为,然后比较了多个代理人在技能特定的能力评分方面。这种分析表明,训练中的偏见对代理人的行为具有持久影响,并且现有的模型能够建立简单的指称表达式。我们在模型之间的比较中发现,技能特定的评分与整体 VLN 任务表现的改进相关。
Jul, 2023
该研究提出了一种基于人类导航行为的智能视觉语言导航策略,通过赋予代理人主动信息收集能力和学习探索策略来解决当前方法产生的不确定性问题和效率低下问题,实验证明该方法能显著提高导航性能。
Jul, 2020
本文提出了一种基于自我监督的辅助推理导航(AuxRN)框架,使用四个辅助推理任务来利用语义信息,通过这些额外训练信号来帮助代理获取语义表示的知识以便进行推理,进而建立对环境的全面感知,该方法在标准基准测试中实现了最佳效果,显著优于现有的最先进方法。
Nov, 2019
本研究探讨了在室外场景中,视觉代理如何跨越未知地形实现指令导航,发现与室内情况相比,图形化表达方式对室外导航具有更大的影响,因此未来的研究需关注在不同地形环境中的规模和多样性增长。
Mar, 2022