一步一步：里程碑式的长期视觉语言导航

CVPRFeb, 2022

一步一步：里程碑式的长期视觉语言导航

One Step at a Time: Long-Horizon Vision-and-Language Navigation with Milestones

Chan Hee Song, Jihyung Kil, Tai-Yu Pan, Brian M. Sadler, Wei-Lun Chao...

TL;DR提出了一种基于里程碑的任务追踪模型（M-TRACK），可帮助自主代理并监测其进展，通过在具有大量行动序列和导航里程碑的长时间任务中的应用，相较基础模型获得了 33% 和 52% 的成功率提高。

Abstract

We study the problem of developing autonomous agents that can follow human instructions to infer and perform a sequence of actions to complete the underlying task. Significant progress has been made in recent years, especially for tasks with short horizons. However, when it comes to

autonomous agents human instructions long-horizon tasks m-track alfred dataset

发现论文，激发创造

扩散式任务无关里程碑规划器

利用序列建模方法来预测未来轨迹的决策问题在近年来取得了良好的结果。本文进一步利用这种序列预测方法在长期规划、基于视觉的控制和多任务决策等更广泛的领域中进行研究，提出了一种基于扩散模型的生成序列模型的方法，在潜空间内计划一系列里程碑，并使代理人遵循这些里程碑完成给定任务。该方法可以学习控制相关的低维潜变量表示，从而能够高效进行长期规划和基于视觉的控制。此外，我们的方法利用了扩散模型的生成灵活性，可以为多任务决策制定多样的轨迹。我们在离线强化学习（RL）基准测试和视觉操作环境中对该方法进行了验证，结果表明我们的方法在解决长远视角、稀疏奖励任务和多任务问题方面优于离线 RL 方法，并在最具挑战性的基于视觉的操作基准上实现了最先进的性能。

Dec, 2023

基于视觉理解规划的语言模型无需视觉输入推断详细计划

本文研究了如何将自然语言指令转化为虚拟环境中可行的多步骤行动序列，通过实证表明，结合一定的视觉信息和上下文语境，GPT-2 模型能够成功地生成金标准语句执行序列，为基于语言的虚拟代理提供了强大的视觉语义规划模块。

Sep, 2020

借助辅助进度估计的自我监测导航智能体

本文介绍了一种自我监测的智能体，其中包括可视文本共聚合模块和进展监视器以支持 Vision-and-Language Navigation（VLN）任务，并在标准基准测试中使用提出的方法实现了 8％的成功率绝对增加并且创造了最新的技术水平。

Jan, 2019

BabyWalk: 通过采取宝宝步伐在视觉语言导航中走得更远

该研究通过提出一种新的基于阶段性学习方式的视觉和语言导航 (Vision-and-Language Navigation，VLN) 代理，将长指令分解为短指令，使得代理能够更好地完成长路径导航任务。实证结果表明，该代理在多项指标上取得了最优成果。

May, 2020

如今是否已经到达目的地？学习跟随具身教学中的定位

本研究针对 “Embodied instruction following” 的挑战性问题，利用 ALFRED 基准测试，通过引入多个视角和培训模型预测空间关系的方式来解决目标定位和语言指令接地等关键难点，同时通过引入预训练的物体检测模块来提高语言接地，实验证明我们的方法可以超越基线模型性能。

Jan, 2021

连续环境下视觉语言导航的语言对齐航点（LAW）监督

本文针对视觉语言导航任务提出了一种基于自然语言的导航方法，通过一个新的衡量指标来度量环境导航中代理人遵循指令的准确度。

Sep, 2021

沿着路径前进：视觉语言导航中的指令准确度

通过对 Room-to-Room 数据集的评估提出新的评价指标 CLS，并且创建了新数据集 Room-for-Room (R4R) 用于指导指令跟踪的任务，同时通过比较与基准系统，表明重视指令的代理程序优于重视目标完成的代理程序。

May, 2019

后悔的智能体：借助进展估计的启发式导航

本文提出了一种基于可学习启发式搜索的视觉和语言导航任务的处理方法，通过两个模块 —— 后退决策和进度标记，取得较当前最优方法的 5％绝对改进和 8％路径长度的情况下成功率的提高。

Mar, 2019

听、关注和行：将导航指令映射为动作序列的神经网络

提出一种神经序列到序列模型，用 LSMT-RNN 将自然语言指令转化为动作序列来实现有效的自主代理。该模型使用对当前世界状态显著的句子 “区域” 的多个抽象来实现对句子的多层次对其。与现有方法相比，该模型不需要专门的语言资源（例如解析器）或任务特定注释（例如种子词典），因此具有通用性，同时在基准单句数据集上取得了迄今为止最佳结果，并为有限培训多句子设定提供竞争结果。

Jun, 2015

基于统一变形器和自监控的语言指令分层任务学习

本文提出一个名称为 HiTUT 的模型，将任务学习分解成三个子问题：子目标规划、场景导航和物体操作，并统一解决了每个子问题，以学习分层任务结构。在 ALFRED 基准测试中，HiTUT 表现出最好的性能和更高的泛化能力。

Jun, 2021