评估视觉与语言导航的解释方法

Oct, 2023

Evaluating Explanation Methods for Vision-and-Language Navigation

Guanqi Chen, Lei Yang, Guanhua Chen, Jia Pan

TL;DR利用深度神经模型进行自然语言指令导航机器人在未知环境中是实现具体化人工智能的关键步骤。本文通过建立定量基准来评估对视觉语言导航模型进行解释的方法，并提出了一种新的基于擦除的评估流程，以测量顺序决策环境中的逐步文本解释。通过实验证实了两个代表性视觉语言导航模型的几种解释方法，并揭示了宝贵的研究结果。

Abstract

The ability to navigate robots with natural language instructions in an unknown environment is a crucial step for achieving embodied artificial intelligence (AI). With the improving performance of deep neural models proposed in the field of →

robot navigation natural language instructions embodied artificial intelligence explanation methods vision-and-language navigation

发现论文，激发创造

通过语义更丰富的指令来弥补 VLN 中的视觉差距

本文介绍了数据扩充方法以改善现有的人工智能模型在 VLN 任务中性能表现不佳的问题，该方法利用了 Matterport3D 数据集中的元数据信息来引导新的导航指令的生成，并在未见过的环境中使性能提高了 8%。

Oct, 2022

诊断视觉语言导航：真正重要的事情

本文研究了视觉与语言导航的多模态任务，通过一系列诊断实验揭示不同类型的导航智能体的注意力焦点和跨模态理解能力，发现 Transformer 模型相对其他模型更具有对物体的跨模态理解能力，同时对于模型声称的跨模态对齐方式存在质疑。

Mar, 2021

视觉与语言导航：任务、方法和未来发展综述

本文综述了 Vision-and-Language Navigation（VLN）这一领域的现有研究，包括任务、评价指标、方法等，并通过结构化分析当前进展和挑战，强调了当前 VLN 的局限性和未来工作的机遇，是 VLN 研究社区的详尽参考。

Mar, 2022

具备体验智能的视觉 - 语言导航：综述

长期愿景是提高代理者和环境的感知、理解和交互能力，以实现具体导航的视觉 - 语言导航（VLN）作为实现具体导航的核心研究路径，关注代理者如何使用自然语言与人类进行有效沟通，接收和理解指令，并最终依靠视觉信息实现准确的导航。此综述系统回顾了 VLN 的研究进展并详细介绍了具体导航的研究方向，包括系统架构、基于方法的研究和常用基准数据集，全面分析了当前研究面临的问题和挑战，并探讨了该领域的未来发展方向，旨在为研究人员提供实用的参考。

Feb, 2024

右边” 在哪儿？：揭示视觉语言导航模型的限制

通过一系列的简单遮盖实验，揭示了某些高性能模型仅依赖于指令的名词标记，并提出了两种训练方法来缓解这个问题。

Nov, 2023

视觉语言导航的多模态判别模型

本论文提出了一种使用多模态对齐的鉴别器来评估视觉和语言导航任务中的自然语言指令，以及通过预训练组件暖启动 VLN 代理以改善其在以前看不见的环境中的表现的方法。

May, 2019

视觉语言导航智能体的行为分析

为了成功，视觉语言导航（VLN）代理人必须能够根据周围环境将指令与行动联系起来。本研究开发了一种研究基于技能的代理人行为的方法，检查现有代理人在停止、转向和移动向指定对象或房间方面如何准确地进行指令的实施。我们的方法基于生成针对不同技能的干预措施，并测量代理人预测的变化。我们展示了一个详细的案例研究，分析了最新代理人的行为，然后比较了多个代理人在技能特定的能力评分方面。这种分析表明，训练中的偏见对代理人的行为具有持久影响，并且现有的模型能够建立简单的指称表达式。我们在模型之间的比较中发现，技能特定的评分与整体 VLN 任务表现的改进相关。

Jul, 2023

视觉语言导航的主动信息收集

该研究提出了一种基于人类导航行为的智能视觉语言导航策略，通过赋予代理人主动信息收集能力和学习探索策略来解决当前方法产生的不确定性问题和效率低下问题，实验证明该方法能显著提高导航性能。

Jul, 2020

利用自监督辅助推理任务的视觉语言导航

本文提出了一种基于自我监督的辅助推理导航（AuxRN）框架，使用四个辅助推理任务来利用语义信息，通过这些额外训练信号来帮助代理获取语义表示的知识以便进行推理，进而建立对环境的全面感知，该方法在标准基准测试中实现了最佳效果，显著优于现有的最先进方法。

Nov, 2019

分析视觉和语言导航在未知的室外区域中的泛化能力

本研究探讨了在室外场景中，视觉代理如何跨越未知地形实现指令导航，发现与室内情况相比，图形化表达方式对室外导航具有更大的影响，因此未来的研究需关注在不同地形环境中的规模和多样性增长。

Mar, 2022