移动之前进行讨论:通过多专家讨论进行视觉语言导航
该研究提出了一种基于人类导航行为的智能视觉语言导航策略,通过赋予代理人主动信息收集能力和学习探索策略来解决当前方法产生的不确定性问题和效率低下问题,实验证明该方法能显著提高导航性能。
Jul, 2020
本文研究了视觉与语言导航的多模态任务,通过一系列诊断实验揭示不同类型的导航智能体的注意力焦点和跨模态理解能力,发现 Transformer 模型相对其他模型更具有对物体的跨模态理解能力,同时对于模型声称的跨模态对齐方式存在质疑。
Mar, 2021
本论文提出了一种使用多模态对齐的鉴别器来评估视觉和语言导航任务中的自然语言指令,以及通过预训练组件暖启动 VLN 代理以改善其在以前看不见的环境中的表现的方法。
May, 2019
本文介绍了数据扩充方法以改善现有的人工智能模型在 VLN 任务中性能表现不佳的问题,该方法利用了 Matterport3D 数据集中的元数据信息来引导新的导航指令的生成,并在未见过的环境中使性能提高了 8%。
Oct, 2022
本文综述了 Vision-and-Language Navigation(VLN)这一领域的现有研究,包括任务、评价指标、方法等,并通过结构化分析当前进展和挑战,强调了当前 VLN 的局限性和未来工作的机遇,是 VLN 研究社区的详尽参考。
Mar, 2022
本研究探讨了在室外场景中,视觉代理如何跨越未知地形实现指令导航,发现与室内情况相比,图形化表达方式对室外导航具有更大的影响,因此未来的研究需关注在不同地形环境中的规模和多样性增长。
Mar, 2022
以连续学习为基础,提出了视觉语言导航的连续学习范式,通过重新组织已有的导航数据集,提出了 CVLN-I 和 CVLN-D 两个用于训练和评估 CVLN 代理的数据集,进一步提出了 Perplexity Replay (PerpR) 和 Episodic Self-Replay (ESR) 两种基于回放的新方法,通过广泛实验验证了所提方法的有效性。
Mar, 2024
为了成功,视觉语言导航(VLN)代理人必须能够根据周围环境将指令与行动联系起来。本研究开发了一种研究基于技能的代理人行为的方法,检查现有代理人在停止、转向和移动向指定对象或房间方面如何准确地进行指令的实施。我们的方法基于生成针对不同技能的干预措施,并测量代理人预测的变化。我们展示了一个详细的案例研究,分析了最新代理人的行为,然后比较了多个代理人在技能特定的能力评分方面。这种分析表明,训练中的偏见对代理人的行为具有持久影响,并且现有的模型能够建立简单的指称表达式。我们在模型之间的比较中发现,技能特定的评分与整体 VLN 任务表现的改进相关。
Jul, 2023
本文提出了一种基于自我监督的辅助推理导航(AuxRN)框架,使用四个辅助推理任务来利用语义信息,通过这些额外训练信号来帮助代理获取语义表示的知识以便进行推理,进而建立对环境的全面感知,该方法在标准基准测试中实现了最佳效果,显著优于现有的最先进方法。
Nov, 2019
在本文中,我们提出了一个在真实世界中解决 VLN 任务的新型导航框架,该框架利用强大的基础模型,并包括四个关键组成部分:(1) 将语言指令转换为预定义的宏操作描述的 LLMs-based 指令解析器,(2) 构建实时的视觉 - 语言地图以保持对未知环境的空间和语义理解的在线视觉 - 语言映射器,(3) 基于语言索引的定位器,将每个宏操作描述重新映射到地图上的路径点位置,以及 (4) 基于 DD-PPO 的本地控制器,用于预测动作。我们在未知的实验室环境中使用 Interbotix LoCoBot WX250 对提出的流程进行了评估,而无需进行任何细微调整,在真实世界中,我们的流程明显优于 SOTA VLN 基线。
Oct, 2023