通过视觉和语言方法的应用,本文提出了一个以真实影像为基础的强化学习环境 Matterport3D Simulator,为现实建筑物的自然语言导航问题提供了第一个基准测试数据集 Room-to-Room (R2R) dataset。
Nov, 2017
UVLN (Universal Vision-Language Navigation) 是一种新颖的增强型机器翻译指令框架,利用大型语言模型(GPT3)和图像标题模型(BLIP)的新颖组合,将传统的指令跟随代理推广到多语言和低资源语言等复杂领域,将不同语言之间的对齐通过跨模态变压器,对语言指令、视觉观察和动作决策序列进行编码、捕获和传递。
May, 2023
我们的方法将预先训练的视觉和语言表示技术适应于相关领域的任务,通过在跨模态序列对齐和序列一致性任务中适应这些表示技术,从而提高了在 Room-to-Room(R2R) 带权路径成功率(SPL)度量方面的性能。
Aug, 2019
介绍了 Room-Across-Room(RxR),这是一个新的视觉语言导航(VLN)数据集,它是一个多语言(英语,印地语和泰卢固语)的数据集,强调语言在 VLN 中的作用,解决了路径中已知的偏差,并更多地引用可见实体。RxR 的规模和细节大大扩展了对仿真的体现性语言代理的研究。
Oct, 2020
本研究提出了一种名为 IVLN(迭代视觉语言导航)的新范例用于评估自然语言引导的智能体在具有持久环境的不同场景中的导航表现。
Oct, 2022
利用 360 度全景数据生成的合成语音引导大型模拟数据集,使用模仿学习的简单 Transformer 模型,本文介绍了一种新的方式 —— 合成指令及大规模模仿学习来提高代理程序。
本文研究了视觉与语言导航的多模态任务,通过一系列诊断实验揭示不同类型的导航智能体的注意力焦点和跨模态理解能力,发现 Transformer 模型相对其他模型更具有对物体的跨模态理解能力,同时对于模型声称的跨模态对齐方式存在质疑。
Mar, 2021
通过一系列的简单遮盖实验,揭示了某些高性能模型仅依赖于指令的名词标记,并提出了两种训练方法来缓解这个问题。
Nov, 2023
通过对 Room-to-Room 数据集的评估提出新的评价指标 CLS,并且创建了新数据集 Room-for-Room (R4R) 用于指导指令跟踪的任务,同时通过比较与基准系统,表明重视指令的代理程序优于重视目标完成的代理程序。
May, 2019
本文综述了 Vision-and-Language Navigation(VLN)这一领域的现有研究,包括任务、评价指标、方法等,并通过结构化分析当前进展和挑战,强调了当前 VLN 的局限性和未来工作的机遇,是 VLN 研究社区的详尽参考。
Mar, 2022