一步一步:里程碑式的长期视觉语言导航
利用序列建模方法来预测未来轨迹的决策问题在近年来取得了良好的结果。本文进一步利用这种序列预测方法在长期规划、基于视觉的控制和多任务决策等更广泛的领域中进行研究,提出了一种基于扩散模型的生成序列模型的方法,在潜空间内计划一系列里程碑,并使代理人遵循这些里程碑完成给定任务。该方法可以学习控制相关的低维潜变量表示,从而能够高效进行长期规划和基于视觉的控制。此外,我们的方法利用了扩散模型的生成灵活性,可以为多任务决策制定多样的轨迹。我们在离线强化学习(RL)基准测试和视觉操作环境中对该方法进行了验证,结果表明我们的方法在解决长远视角、稀疏奖励任务和多任务问题方面优于离线 RL 方法,并在最具挑战性的基于视觉的操作基准上实现了最先进的性能。
Dec, 2023
本文研究了如何将自然语言指令转化为虚拟环境中可行的多步骤行动序列,通过实证表明,结合一定的视觉信息和上下文语境,GPT-2 模型能够成功地生成金标准语句执行序列,为基于语言的虚拟代理提供了强大的视觉语义规划模块。
Sep, 2020
本文介绍了一种自我监测的智能体,其中包括可视文本共聚合模块和进展监视器以支持 Vision-and-Language Navigation(VLN)任务,并在标准基准测试中使用提出的方法实现了 8%的成功率绝对增加并且创造了最新的技术水平。
Jan, 2019
该研究通过提出一种新的基于阶段性学习方式的视觉和语言导航 (Vision-and-Language Navigation,VLN) 代理,将长指令分解为短指令,使得代理能够更好地完成长路径导航任务。实证结果表明,该代理在多项指标上取得了最优成果。
May, 2020
本研究针对 “Embodied instruction following” 的挑战性问题,利用 ALFRED 基准测试,通过引入多个视角和培训模型预测空间关系的方式来解决目标定位和语言指令接地等关键难点,同时通过引入预训练的物体检测模块来提高语言接地,实验证明我们的方法可以超越基线模型性能。
Jan, 2021
通过对 Room-to-Room 数据集的评估提出新的评价指标 CLS,并且创建了新数据集 Room-for-Room (R4R) 用于指导指令跟踪的任务,同时通过比较与基准系统,表明重视指令的代理程序优于重视目标完成的代理程序。
May, 2019
本文提出了一种基于可学习启发式搜索的视觉和语言导航任务的处理方法,通过两个模块 —— 后退决策和进度标记,取得较当前最优方法的 5%绝对改进和 8%路径长度的情况下成功率的提高。
Mar, 2019
提出一种神经序列到序列模型,用 LSMT-RNN 将自然语言指令转化为动作序列来实现有效的自主代理。该模型使用对当前世界状态显著的句子 “区域” 的多个抽象来实现对句子的多层次对其。与现有方法相比,该模型不需要专门的语言资源(例如解析器)或任务特定注释(例如种子词典),因此具有通用性,同时在基准单句数据集上取得了迄今为止最佳结果,并为有限培训多句子设定提供竞争结果。
Jun, 2015
本文提出一个名称为 HiTUT 的模型,将任务学习分解成三个子问题:子目标规划、场景导航和物体操作,并统一解决了每个子问题,以学习分层任务结构。在 ALFRED 基准测试中,HiTUT 表现出最好的性能和更高的泛化能力。
Jun, 2021