基于大型语言模型的房间 - 物体关系知识在增强多模态输入目标导航中的应用

Mar, 2024

基于大型语言模型的房间 - 物体关系知识在增强多模态输入目标导航中的应用

Leveraging Large Language Model-based Room-Object Relationships Knowledge for Enhancing Multimodal-Input Object Goal Navigation

PDF

Leyuan Sun, Asako Kanezaki, Guillaume Caron, Yusuke Yoshiyasu

TL;DR利用大型语言模型提取知识，我们在多通道 Swin-Unet 架构的基础上，使用数据驱动的、基于模块的方法进行多任务学习，从而实现了有效的目标导航，超过了基准模型平均 10.6% 的效率指标（SPL），并在现实世界的演示中展示了该方法在穿越多个房间时的高效性。

Abstract

object-goal navigation is a crucial engineering task for the community of embodied navigation; it involves navigating to an instance of a specified object category within unseen environments. Although extensive i

object-goal navigation embodied navigation data-driven approach knowledge extraction multi-task learning

发现论文，激发创造

多模态大型语言模型用于视觉导航

通过简单的文本提示、当前观察和历史收集模型，我们的方法在视觉导航中对大型语言模型进行了精细调优，训练模型使用了来自 Habitat-Matterport 3D 数据集（HM3D）的人类示范和碰撞信号，实验结果表明我们的方法优于最先进的行为克隆方法并有效地降低了碰撞率。

Oct, 2023

利用大型语言模型进行机器人三维场景理解

探讨使用大量语言模型来实现场景理解的常识；介绍了三种利用语言对包含对象的室内环境进行分类的范例：（i）零样本方法，（ii）前馈分类器方法和（iii）对比分类器方法，在现代空间感知系统生成的 3D 场景图上进行操作，并通过分析每种途径，展示了显着的零样本泛化和转移能力；最后，展示了这些方法也适用于推断包含房间的建筑标签，并在真实环境中展示了零样本方法。

Sep, 2022

语言增强对目标導向物体导航中的捷径学习问题进行应对

深度强化学习在目标导航中面临了捷径学习的问题，我们提出了一种基于语言的增强方法，利用视觉 - 语言模型的多模态特征空间，在特征层面上增强视觉表示，成功解决了捷径学习的挑战。

Feb, 2024

学习目标导航的层次关系

该研究提出了一种基于目标导向的导航算法 MJOLNIR，利用对象之间的关系和环境 context 来进行目标定位，相较于现有方法，在多种环境下实现了 82.9% 和 93.5% 的更高成功率和更短路径长度，并且收敛速度更快，并避免了过拟合问题。

Mar, 2020

利用场景特定特征进行物体目标导航

本文研究了在复杂的家庭环境中，物体和房间之间的内在关系是否有助于视觉导航任务中的智能体。我们通过一个新的降低训练难度的数据集提出了一种基于关注力机制的模型，该模型可以定量地利用场景和物体之间的相关性，从而能够实现导航模型的快速训练和更好的性能。

Aug, 2020

在无标注三维环境中学习视觉语言导航

本研究提出通过使用 900 个未标记的 3D 建筑从 HM3D 中自动创建 VLN 数据集，并通过预训练的语言模型对数据集进行微调，从而解决 VLN 方法中的数据稀缺性问题，从而大幅提高 VLN 模型的泛化能力。实验表明该方法在 REVERIE 和 SOON 数据集验证数据集上提高了 7.1% 和 8.1% 的 SPL 性能，取得了良好效果。

Aug, 2022

利用大型语言和视觉模型通过程序生成的三维场景表示探索未知环境的机器人

利用大型语言模型（LLMs）和大型视觉语言模型（LVLMs）的能力，本研究提出了一个综合框架，模仿人类认知以实现对象目标导航问题的解决，通过关注、感知和存储任务特定信息，并生成相应计划。为了有效表示机器人周围的环境，提出使用语义丰富的 3D 场景模块化表示，并引入基于 LLM 的修剪策略以消除无关的目标特定信息。

Mar, 2024

通过指导提升结构化探索实现物体导航

本文提出了一种层次化学习方法，包括高层的规划和记忆以及低层的房间导航和物品寻找，通过简单的合成语言为代理提供指令，同时使用另一个目标评估模块将指令映射到视觉观察中。在一个动态可配置的家庭环境中验证了该方法的有效性。

Nov, 2022

利用大型语言和视觉 - 语言模型在具有可穿越障碍物的环境中进行互动导航

提出一个互动导航框架，使用大型语言和视觉语言模型，使机器人能在存在可通过的障碍物的环境中导航。利用大型语言模型（GPT-3.5）和开放域视觉语言模型（Grounding DINO），创建一个动作感知的成本图，可以实现有效的路径规划而无需微调。实验结果证明了该框架在不同环境中的有效性和适应性。

Oct, 2023

深度多模态嵌入：使用点云、语言和轨迹操纵新颖物体

本文介绍了一种算法，通过深度神经网络学习将点云、自然语言和操作轨迹数据嵌入到共享的嵌入空间，并应用于机器人操作中，取得了较高的精度和推理时间改善。

Sep, 2015