通过不同的神经网络架构,自然语言指令、视觉和深度输入被映射为机器行动的原语,RL 算法在稀疏奖励下学习状态表示、注意力函数和控制策略。在模拟家庭环境下的自然语言导航中,模型展示出了30%的改进和52%的成功率。
May, 2018
通过对Room-to-Room数据集的评估提出新的评价指标CLS,并且创建了新数据集Room-for-Room(R4R)用于指导指令跟踪的任务,同时通过比较与基准系统,表明重视指令的代理程序优于重视目标完成的代理程序。
May, 2019
通过对房间到房间的导航(VLN)基准进行研究,发现数据加工的方式很重要。我们发现最短路径采样在动作空间中编码偏见,从而解释了现有方法推广能力差的原因。为了减轻这种偏见,我们提出了一种基于随机游走的路径采样方法来增强数据,通过这种方法训练代理,其相比基线,能够更好地推广到未知环境,从而显着提高模型性能。
Mar, 2020
本文提出了一个精细度更高的注释,以便在自然语言指令下更好地完成环境中的导航,为此使用了带有细致的注释的Room-to-Room(R2R)基准数据集。并引入有效的子指令注意力和移位模块,在每个时间步选择并关注单个子指令,实现了此子指令模块,与四个最新的代理基线模型进行了比较,并展示了我们提出的方法改进了所有四个代理的性能。
Apr, 2020
提出了一种预测器来解决视觉和语言导航领域中离散环境与连续环境之间的差异,该预测器可以生成候选的路径点,极大地提升了机器人在连续环境下的导航表现。
Mar, 2022
本研究提出了一种名为IVLN(迭代视觉语言导航)的新范例用于评估自然语言引导的智能体在具有持久环境的不同场景中的导航表现。
Oct, 2022
利用360度全景数据生成的合成语音引导大型模拟数据集,使用模仿学习的简单Transformer模型,本文介绍了一种新的方式——合成指令及大规模模仿学习来提高代理程序。
文章介绍了 LANA,一种同时具有导航指令遵循和生成能力的艺术导航机器人,能够执行人类编写的导航命令并向人类提供路线说明。
Mar, 2023
通过构建大规模数据集,研究了语言引导的视觉导航中各个组成部分对代理性能的影响,并通过简单模仿学习将现有代理的性能推向了一个显著的新高度,成功率达到了80%,并将在已见和未见环境中导航的泛化差距降低到不到1%。
Jul, 2023
通过与专家的讨论,我们引入了一种新的零射击视觉语言导航框架,命名为DiscussNav,能够有效地增强导航性能。
Sep, 2023