多模态大型语言模型用于视觉导航

Oct, 2023

多模态大型语言模型用于视觉导航

Multimodal Large Language Model for Visual Navigation

Yao-Hung Hubert Tsai, Vansh Dhar, Jialu Li, Bowen Zhang, Jian Zhang

TL;DR通过简单的文本提示、当前观察和历史收集模型，我们的方法在视觉导航中对大型语言模型进行了精细调优，训练模型使用了来自 Habitat-Matterport 3D 数据集（HM3D）的人类示范和碰撞信号，实验结果表明我们的方法优于最先进的行为克隆方法并有效地降低了碰撞率。

Abstract

Recent efforts to enable visual navigation using large language models have mainly focused on developing complex prompt systems. These systems incorporate instructions, observations, and history into massive text

visual navigation large language models fine-tuning prompt engineering behavior cloning

发现论文，激发创造

利用大型语言和视觉 - 语言模型在具有可穿越障碍物的环境中进行互动导航

提出一个互动导航框架，使用大型语言和视觉语言模型，使机器人能在存在可通过的障碍物的环境中导航。利用大型语言模型（GPT-3.5）和开放域视觉语言模型（Grounding DINO），创建一个动作感知的成本图，可以实现有效的路径规划而无需微调。实验结果证明了该框架在不同环境中的有效性和适应性。

Oct, 2023

基于大型语言模型的房间 - 物体关系知识在增强多模态输入目标导航中的应用

利用大型语言模型提取知识，我们在多通道 Swin-Unet 架构的基础上，使用数据驱动的、基于模块的方法进行多任务学习，从而实现了有效的目标导航，超过了基准模型平均 10.6% 的效率指标（SPL），并在现实世界的演示中展示了该方法在穿越多个房间时的高效性。

Mar, 2024

在无标注三维环境中学习视觉语言导航

本研究提出通过使用 900 个未标记的 3D 建筑从 HM3D 中自动创建 VLN 数据集，并通过预训练的语言模型对数据集进行微调，从而解决 VLN 方法中的数据稀缺性问题，从而大幅提高 VLN 模型的泛化能力。实验表明该方法在 REVERIE 和 SOON 数据集验证数据集上提高了 7.1% 和 8.1% 的 SPL 性能，取得了良好效果。

Aug, 2022

通过语义更丰富的指令来弥补 VLN 中的视觉差距

本文介绍了数据扩充方法以改善现有的人工智能模型在 VLN 任务中性能表现不佳的问题，该方法利用了 Matterport3D 数据集中的元数据信息来引导新的导航指令的生成，并在未见过的环境中使性能提高了 8%。

Oct, 2022

Co-NavGPT: 多机器人协作视觉语义导航

提出了一种创新性的框架 Co-NavGPT，将大型语言模型（LLMs）作为多机器人合作视觉目标导航的全局规划器，通过编码探索环境数据，为每个机器人分配探索边界，实现高效的目标搜索，实验结果表明 Co-NavGPT 在成功率和效率方面优于现有模型，展示了 LLMs 在多机器人协作领域的巨大潜力。

Oct, 2023

机器人导航的视觉语言地图

本研究提出了 VLMaps，一种将 3D 物理世界重建与预训练的视觉语言特征直接融合的空间地图表示，其能够通过大型语言模型将自然语言命令直接转化为空间导航目标。VLMaps 能够在不需要额外标注数据的情况下自主构建，并且可以与多种类型的机器人共享，能够进行导航的同时生成新的障碍物地图。实验表明，VLMaps 可以支持人类语言含义更丰富的导航指令。

Oct, 2022

为什么只用文本：用多模态提示增强视觉与语言导航

Vision-and-Language Navigation with Multi-modal Prompts (VLN-MP) integrates natural language and images in instructions, showing improved navigation performance through the use of multi-modal and visual prompts.

Jun, 2024

视觉语言导航：在实际环境中解释基于视觉的导航指令

通过视觉和语言方法的应用，本文提出了一个以真实影像为基础的强化学习环境 Matterport3D Simulator，为现实建筑物的自然语言导航问题提供了第一个基准测试数据集 Room-to-Room (R2R) dataset。

Nov, 2017

层次化跨模态机器人视觉语言导航智能体

该研究论文提出了一种基于连续三维重建环境的机器人视觉和语言导航（Robo-VLN）的设定，并利用分层决策，模块化训练和分离推理和模仿的策略，成功地解决了 Robo-VLN 这一新任务。通过使用 HCM 代理，研究者展示了比现有基线效果更好的结果，为 Robo-VLN 创造了新的基准。

Apr, 2021

MC-GPT: 通过记忆地图和推理链增强视觉与语言导航能力

在视觉语言导航（VLN）任务中，代理器需要按照自然语言指令导航到目的地。本文提出了一套方法来解决现有大型语言模型在构建记忆和导航策略多样性方面面临的问题，通过维护一个包含导航历史、视点、物体及它们的空间关系的拓扑地图来增强导航能力，并通过引入导航思维链模块富化导航策略多样性，最终通过整合感知和动作预测模块建立了一个能提高大型语言模型导航能力和解释性的流水线。实验证明，该方法有效地增强了大型语言模型的导航能力并提高了导航推理的可解释性。

May, 2024