ENTL：具身导航轨迹学习器

Apr, 2023

ENTL: Embodied Navigation Trajectory Learner

Klemen Kotar, Aaron Walsman, Roozbeh Mottaghi

TL;DRENTL 是一种提取具有长序列表示来实现躯体导航的方法，其将世界建模、定位和模仿学习统一为单一的序列预测任务，而模型则使用当前状态和动作作为条件预测未来状态的向量量化预测进行训练，还可以实现定位和未来帧预测等辅助任务，而其通用结构可用于多种具有挑战性的躯体任务，此方法的一个关键特性是模型是在没有明确的奖励信号的情况下进行预先训练的，因此可适用于多个任务和环境。

Abstract

We propose embodied navigation trajectory learner (ENTL), a method for extracting long sequence representations for embodied navigation. Our approach unifies world modeling, →

embodied navigation trajectory learner sequence prediction world modeling localization imitation learning

发现论文，激发创造

听、关注和行：将导航指令映射为动作序列的神经网络

提出一种神经序列到序列模型，用 LSMT-RNN 将自然语言指令转化为动作序列来实现有效的自主代理。该模型使用对当前世界状态显著的句子 “区域” 的多个抽象来实现对句子的多层次对其。与现有方法相比，该模型不需要专门的语言资源（例如解析器）或任务特定注释（例如种子词典），因此具有通用性，同时在基准单句数据集上取得了迄今为止最佳结果，并为有限培训多句子设定提供竞争结果。

Jun, 2015

走向学习通用模型的行动导航

利用基于模式的指令将 LLMs 整合到具有身体导航功能的第一个通用模型 NaviLLM 中，该模型在各种任务中取得了最新的成果，并在 CVDN、SOON 和 ScanQA 上的性能达到了最新发展水平。

Dec, 2023

具身导航的 LLM 发展

近年来，大型语言模型（LLMs）如生成预训练变换器（GPT）的快速进展引起了越来越多的关注，由于它们在各种实际应用中的潜力。LLMs 与具身智能的应用已成为一个重要的研究领域，其中导航任务尤为引人注目，因为它们需要对环境有深刻的理解和快速准确的决策能力。本文全面总结了 LLMs 与具身智能之间的共生关系，重点关注导航领域。它回顾了最先进的模型、研究方法，并评估了现有具身导航模型和数据集的优缺点。最后，根据当前研究，阐明了 LLMs 在具身智能中的作用，并预测了未来的研究方向。本调查的研究清单可在此 https URL 上找到。

Nov, 2023

视觉 - 语言导航生成预训练 Transformer

在 Vision-and-Language Navigation (VLN) 领域中，我们提出了一种基于 Transformer 的生成预训练模型（VLN-GPT），通过建模轨迹序列依赖关系来增强效率，并在训练过程中采用离线预训练和在线优化的方法，性能评估表明 VLN-GPT 超越了复杂的基于编码器的模型。

May, 2024

具身 BERT：一种用于具身、语言引导的视觉任务完成的 Transformer 模型

EmBERT 是一种基于 transformer 的模型，具有语言指导的目的完成能力。它是第一个能够成功处理 ALFRED 的历史记录、多模态的长时间跨度的 transformer 模型，同时也是第一个在 ALFRED 中使用对象导航目标的模型。

Aug, 2021

NavCoT: 基于学习的解耦推理，提升基于 LLM 的视觉与语言导航

通过构建导航思维链（NavCoT）进行领域内训练的新策略，提高了基于大型语言模型（LLM）的自主导航决策性能以减少领域差距。NavCoT 相对于直接行动预测的变体在各种训练设置和流行的视听导航基准上表现明显优越，并通过简单的参数微调在 R2R 数据集上实现了约 7％的相对改进。该方法将帮助开发更适应任务且可扩展的基于 LLM 的真实世界机器人应用。

Mar, 2024

加强型结构化状态演进的视觉语言导航

本文提出了一种新的结构化状态演化（SEvol）模型，采用基于图的特征来表示导航状态，利用增强学习策略通过 Reinforced Layout clues Miner（RLM）挖掘和检测关键的布局图，并通过结构演化模块（SEM）来维护结构化基于图的状态，从而提高了 Vision-and-language Navigation 任务的性能。

Apr, 2022

具身视觉导航的深度学习：一项综述

综述了目前关于具有各种智能技能的智能机器人在 3D 环境中进行导航的研究领域，着重介绍了在这一领域内的各种高级技能，例如：感知局部观察视觉输入，理解跨模态的指令等等，并探讨了未来的研究方向及挑战。

Jul, 2021

VELMA：街景视觉语言导航中 LLM 代理人的语言表达体现

该研究提出了一个用于视觉和语言导航的具有身体感知的语言模型（VELMA），它能够通过人类书写的导航指令中提取位置信息和使用 CLIP 算法来处理图像信息并实现与真实街景地图的交互，相比先前的研究，在两个数据集中，VELMA 完成任务的成功率相比前者提高了 25％-30％

Jul, 2023

视觉语言导航的史诗变压器

本文提出了一种名为 Episodic Transformer (E.T.) 的多模态 Transformer，可解决使用自然语言指令进行交互和导航所面临的挑战。通过采用合成指令来改善训练和决策，使得 E.T. 能够处理历史信息，以实现复合式任务，并在具有挑战性的 ALFRED 基准测试中取得了 38.4% 和 8.5% 的任务成功率。

May, 2021