具备体验智能的视觉 - 语言导航:综述
本文综述了 Vision-and-Language Navigation(VLN)这一领域的现有研究,包括任务、评价指标、方法等,并通过结构化分析当前进展和挑战,强调了当前 VLN 的局限性和未来工作的机遇,是 VLN 研究社区的详尽参考。
Mar, 2022
该研究提出了一种基于人类导航行为的智能视觉语言导航策略,通过赋予代理人主动信息收集能力和学习探索策略来解决当前方法产生的不确定性问题和效率低下问题,实验证明该方法能显著提高导航性能。
Jul, 2020
本文研究了视觉与语言导航的多模态任务,通过一系列诊断实验揭示不同类型的导航智能体的注意力焦点和跨模态理解能力,发现 Transformer 模型相对其他模型更具有对物体的跨模态理解能力,同时对于模型声称的跨模态对齐方式存在质疑。
Mar, 2021
Vision-and-Language Navigation involves developing embodied agents that navigate based on human instructions. This paper introduces Human-Aware Vision-and-Language Navigation by incorporating dynamic human activities and relaxing key assumptions, utilizing the HA3D simulator, HA-R2R dataset, Expert-Supervised Cross-Modal, and Non-Expert-Supervised Decision Transformer agents for effective navigation in dynamic human environments.
Jun, 2024
该研究提出了一个用于视觉和语言导航的具有身体感知的语言模型(VELMA),它能够通过人类书写的导航指令中提取位置信息和使用 CLIP 算法来处理图像信息并实现与真实街景地图的交互,相比先前的研究,在两个数据集中,VELMA 完成任务的成功率相比前者提高了 25%-30%
Jul, 2023
为了成功,视觉语言导航(VLN)代理人必须能够根据周围环境将指令与行动联系起来。本研究开发了一种研究基于技能的代理人行为的方法,检查现有代理人在停止、转向和移动向指定对象或房间方面如何准确地进行指令的实施。我们的方法基于生成针对不同技能的干预措施,并测量代理人预测的变化。我们展示了一个详细的案例研究,分析了最新代理人的行为,然后比较了多个代理人在技能特定的能力评分方面。这种分析表明,训练中的偏见对代理人的行为具有持久影响,并且现有的模型能够建立简单的指称表达式。我们在模型之间的比较中发现,技能特定的评分与整体 VLN 任务表现的改进相关。
Jul, 2023
该文章综述了多模态机器学习和人工智能的最新进展,提出了 “实体视觉语言规划(EVLP)” 这一重要领域并进行了分类和算法分析,并探讨了现实世界中模型的概括性和部署的核心挑战。
Apr, 2023
该研究提出了一项名为 WebVLN 的新任务,利用问答形式的指令训练代理程序,模拟用户在网页上浏览的过程。与现有的 Vision-and-Language Navigation 任务相比,WebVLN 代理程序进一步考虑 HTML 等网页特定内容,通过构建在最先进的 VLN 技术基础之上的 WebVLN-Net 方法,在 VLN 和网页导航方法上取得了更好的表现。该研究的贡献在于创建了 WebVLN-v1 数据集,并为 VLN 领域与广泛的视觉与语言研究社区做出了新的探索。
Dec, 2023
NaVid 是一个基于视频的大型视觉语言模型,通过动态的视频流输入,无需地图、测距仪和深度信息,实现了最先进水平的导航性能,解决了里程计噪声和模拟环境到真实环境之间的缺陷,同时有效地利用机器人的历史观察作为决策和指令遵循的时空背景,通过对 550k 个导航样本和 665k 个网络数据的训练,在模拟环境和真实世界中取得了非常好的性能,为导航代理和整个研究领域规划了下一步。
Feb, 2024