BabyWalk: 通过采取宝宝步伐在视觉语言导航中走得更远

May, 2020

BabyWalk: 通过采取宝宝步伐在视觉语言导航中走得更远

BabyWalk: Going Farther in Vision-and-Language Navigation by Taking Baby Steps

Wang Zhu, Hexiang Hu, Jiacheng Chen, Zhiwei Deng, Vihan Jain...

TL;DR该研究通过提出一种新的基于阶段性学习方式的视觉和语言导航(Vision-and-Language Navigation，VLN)代理，将长指令分解为短指令，使得代理能够更好地完成长路径导航任务。实证结果表明，该代理在多项指标上取得了最优成果。

Abstract

Learning to follow instructions is of fundamental importance to autonomous agents for vision-and-language navigation (VLN). In this paper, we study how an agent can navigate long paths when learning from a corpus

发现论文，激发创造

FollowNet：深度强化学习下基于自然语言指令的机器人导航

通过不同的神经网络架构，自然语言指令、视觉和深度输入被映射为机器行动的原语，RL 算法在稀疏奖励下学习状态表示、注意力函数和控制策略。在模拟家庭环境下的自然语言导航中，模型展示出了30%的改进和52%的成功率。

May, 2018

沿着路径前进：视觉语言导航中的指令准确度

通过对Room-to-Room数据集的评估提出新的评价指标CLS，并且创建了新数据集Room-for-Room(R4R)用于指导指令跟踪的任务，同时通过比较与基准系统，表明重视指令的代理程序优于重视目标完成的代理程序。

May, 2019

沿着风景路线前行：提高视觉语言导航的泛化能力

通过对房间到房间的导航(VLN)基准进行研究，发现数据加工的方式很重要。我们发现最短路径采样在动作空间中编码偏见，从而解释了现有方法推广能力差的原因。为了减轻这种偏见，我们提出了一种基于随机游走的路径采样方法来增强数据，通过这种方法训练代理，其相比基线，能够更好地推广到未知环境，从而显着提高模型性能。

Mar, 2020

子任务感知的视觉语言导航

本文提出了一个精细度更高的注释，以便在自然语言指令下更好地完成环境中的导航，为此使用了带有细致的注释的Room-to-Room（R2R）基准数据集。并引入有效的子指令注意力和移位模块，在每个时间步选择并关注单个子指令，实现了此子指令模块，与四个最新的代理基线模型进行了比较，并展示了我们提出的方法改进了所有四个代理的性能。

Apr, 2020

连接视觉与语言导航中离散与连续环境下学习的鸿沟

提出了一种预测器来解决视觉和语言导航领域中离散环境与连续环境之间的差异，该预测器可以生成候选的路径点，极大地提升了机器人在连续环境下的导航表现。

Mar, 2022

迭代式视觉语言导航

本研究提出了一种名为IVLN（迭代视觉语言导航）的新范例用于评估自然语言引导的智能体在具有持久环境的不同场景中的导航表现。

Oct, 2022

新路径：使用合成指令和模仿学习扩展视觉语言导航

利用360度全景数据生成的合成语音引导大型模拟数据集，使用模仿学习的简单Transformer模型，本文介绍了一种新的方式——合成指令及大规模模仿学习来提高代理程序。

Oct, 2022

Lana: 一款具备语言能力的导航器，用于指令遵循与生成

文章介绍了 LANA，一种同时具有导航指令遵循和生成能力的艺术导航机器人，能够执行人类编写的导航命令并向人类提供路线说明。

Mar, 2023

视觉与语言导航中的数据生成扩展

通过构建大规模数据集，研究了语言引导的视觉导航中各个组成部分对代理性能的影响，并通过简单模仿学习将现有代理的性能推向了一个显著的新高度，成功率达到了80％，并将在已见和未见环境中导航的泛化差距降低到不到1％。

Jul, 2023

移动之前进行讨论：通过多专家讨论进行视觉语言导航

通过与专家的讨论，我们引入了一种新的零射击视觉语言导航框架，命名为DiscussNav，能够有效地增强导航性能。

Sep, 2023