利用自监督辅助推理任务的视觉语言导航

Nov, 2019

利用自监督辅助推理任务的视觉语言导航

Vision-Language Navigation with Self-Supervised Auxiliary Reasoning Tasks

Fengda Zhu, Yi Zhu, Xiaojun Chang, Xiaodan Liang

TL;DR本文提出了一种基于自我监督的辅助推理导航（AuxRN）框架，使用四个辅助推理任务来利用语义信息，通过这些额外训练信号来帮助代理获取语义表示的知识以便进行推理，进而建立对环境的全面感知，该方法在标准基准测试中实现了最佳效果，显著优于现有的最先进方法。

Abstract

vision-language navigation (VLN) is a task where agents learn to navigate following natural language instructions. The key to this task is to perceive both the visual scene and natural language sequentially. Conventional approaches exploit the vision and language features in cross-moda

vision-language navigation auxiliary reasoning navigation self-supervised auxiliary reasoning tasks semantic information navigation graphs

发现论文，激发创造

诊断视觉语言导航：真正重要的事情

本文研究了视觉与语言导航的多模态任务，通过一系列诊断实验揭示不同类型的导航智能体的注意力焦点和跨模态理解能力，发现 Transformer 模型相对其他模型更具有对物体的跨模态理解能力，同时对于模型声称的跨模态对齐方式存在质疑。

Mar, 2021

视觉语言导航的主动信息收集

该研究提出了一种基于人类导航行为的智能视觉语言导航策略，通过赋予代理人主动信息收集能力和学习探索策略来解决当前方法产生的不确定性问题和效率低下问题，实验证明该方法能显著提高导航性能。

Jul, 2020

视觉与语言导航：任务、方法和未来发展综述

本文综述了 Vision-and-Language Navigation（VLN）这一领域的现有研究，包括任务、评价指标、方法等，并通过结构化分析当前进展和挑战，强调了当前 VLN 的局限性和未来工作的机遇，是 VLN 研究社区的详尽参考。

Mar, 2022

借助辅助进度估计的自我监测导航智能体

本文介绍了一种自我监测的智能体，其中包括可视文本共聚合模块和进展监视器以支持 Vision-and-Language Navigation（VLN）任务，并在标准基准测试中使用提出的方法实现了 8％的成功率绝对增加并且创造了最新的技术水平。

Jan, 2019

视觉语言导航的多模态判别模型

本论文提出了一种使用多模态对齐的鉴别器来评估视觉和语言导航任务中的自然语言指令，以及通过预训练组件暖启动 VLN 代理以改善其在以前看不见的环境中的表现的方法。

May, 2019

通过生成未来视角图像语义来提升视觉 - 语言导航能力

该研究旨在探讨智能体是否可以在导航的同时生成未来视图的语义，并通过三个代理任务和一项辅助损失来教授模型实现该目的；实验表明这种能力使智能体的性能得到了提升，并且学习如何预测未来视图语义使智能体对于长路径的表现更好。

Apr, 2023

分析视觉和语言导航在未知的室外区域中的泛化能力

本研究探讨了在室外场景中，视觉代理如何跨越未知地形实现指令导航，发现与室内情况相比，图形化表达方式对室外导航具有更大的影响，因此未来的研究需关注在不同地形环境中的规模和多样性增长。

Mar, 2022

视觉语言导航中可转移的表征学习

我们的方法将预先训练的视觉和语言表示技术适应于相关领域的任务，通过在跨模态序列对齐和序列一致性任务中适应这些表示技术，从而提高了在 Room-to-Room（R2R）带权路径成功率（SPL）度量方面的性能。

Aug, 2019

WebVLN：基于视觉和语言的网站导航

该研究提出了一项名为 WebVLN 的新任务，利用问答形式的指令训练代理程序，模拟用户在网页上浏览的过程。与现有的 Vision-and-Language Navigation 任务相比，WebVLN 代理程序进一步考虑 HTML 等网页特定内容，通过构建在最先进的 VLN 技术基础之上的 WebVLN-Net 方法，在 VLN 和网页导航方法上取得了更好的表现。该研究的贡献在于创建了 WebVLN-v1 数据集，并为 VLN 领域与广泛的视觉与语言研究社区做出了新的探索。

Dec, 2023

知识增强的视觉语言导航推理

本文提出了一种基于 Knowledge Enhanced Reasoning Model （KERM）的 Vision-and-language navigation (VLN) 模型，通过整合从语言描述中提取出来的知识，结合视觉、历史、指令和事实特征，提高了实体代理从自然语言指令中导航到远程位置的能力，并在三个数据集上进行的实验结果证明了该方法的有效性。

Mar, 2023