ENTL:具身导航轨迹学习器
提出一种神经序列到序列模型,用 LSMT-RNN 将自然语言指令转化为动作序列来实现有效的自主代理。该模型使用对当前世界状态显著的句子 “区域” 的多个抽象来实现对句子的多层次对其。与现有方法相比,该模型不需要专门的语言资源(例如解析器)或任务特定注释(例如种子词典),因此具有通用性,同时在基准单句数据集上取得了迄今为止最佳结果,并为有限培训多句子设定提供竞争结果。
Jun, 2015
利用基于模式的指令将 LLMs 整合到具有身体导航功能的第一个通用模型 NaviLLM 中,该模型在各种任务中取得了最新的成果,并在 CVDN、SOON 和 ScanQA 上的性能达到了最新发展水平。
Dec, 2023
近年来,大型语言模型(LLMs)如生成预训练变换器(GPT)的快速进展引起了越来越多的关注,由于它们在各种实际应用中的潜力。LLMs 与具身智能的应用已成为一个重要的研究领域,其中导航任务尤为引人注目,因为它们需要对环境有深刻的理解和快速准确的决策能力。本文全面总结了 LLMs 与具身智能之间的共生关系,重点关注导航领域。它回顾了最先进的模型、研究方法,并评估了现有具身导航模型和数据集的优缺点。最后,根据当前研究,阐明了 LLMs 在具身智能中的作用,并预测了未来的研究方向。本调查的研究清单可在此 https URL 上找到。
Nov, 2023
在 Vision-and-Language Navigation (VLN) 领域中,我们提出了一种基于 Transformer 的生成预训练模型(VLN-GPT),通过建模轨迹序列依赖关系来增强效率,并在训练过程中采用离线预训练和在线优化的方法,性能评估表明 VLN-GPT 超越了复杂的基于编码器的模型。
May, 2024
EmBERT 是一种基于 transformer 的模型,具有语言指导的目的完成能力。它是第一个能够成功处理 ALFRED 的历史记录、多模态的长时间跨度的 transformer 模型,同时也是第一个在 ALFRED 中使用对象导航目标的模型。
Aug, 2021
通过构建导航思维链(NavCoT)进行领域内训练的新策略,提高了基于大型语言模型(LLM)的自主导航决策性能以减少领域差距。NavCoT 相对于直接行动预测的变体在各种训练设置和流行的视听导航基准上表现明显优越,并通过简单的参数微调在 R2R 数据集上实现了约 7%的相对改进。该方法将帮助开发更适应任务且可扩展的基于 LLM 的真实世界机器人应用。
Mar, 2024
本文提出了一种新的结构化状态演化(SEvol)模型,采用基于图的特征来表示导航状态,利用增强学习策略通过 Reinforced Layout clues Miner(RLM)挖掘和检测关键的布局图,并通过结构演化模块(SEM)来维护结构化基于图的状态,从而提高了 Vision-and-language Navigation 任务的性能。
Apr, 2022
综述了目前关于具有各种智能技能的智能机器人在 3D 环境中进行导航的研究领域,着重介绍了在这一领域内的各种高级技能,例如:感知局部观察视觉输入,理解跨模态的指令等等,并探讨了未来的研究方向及挑战。
Jul, 2021
该研究提出了一个用于视觉和语言导航的具有身体感知的语言模型(VELMA),它能够通过人类书写的导航指令中提取位置信息和使用 CLIP 算法来处理图像信息并实现与真实街景地图的交互,相比先前的研究,在两个数据集中,VELMA 完成任务的成功率相比前者提高了 25%-30%
Jul, 2023
本文提出了一种名为 Episodic Transformer (E.T.) 的多模态 Transformer,可解决使用自然语言指令进行交互和导航所面临的挑战。通过采用合成指令来改善训练和决策,使得 E.T. 能够处理历史信息,以实现复合式任务,并在具有挑战性的 ALFRED 基准测试中取得了 38.4% 和 8.5% 的任务成功率。
May, 2021