驾驶场景的具体理解

Mar, 2024

Embodied Understanding of Driving Scenarios

Yunsong Zhou, Linyan Huang, Qingwen Bu, Jia Zeng, Tianyu Li...

TL;DR自主代理人通过具有大空间和时间跨度的驾驶场景的理解而享有实体化的场景理解，它包括具有鲁棒的空间定位能力和准确探询时间线索的嵌入式语言模型（ELM）。

Abstract

embodied scene understanding serves as the cornerstone for autonomous agents to perceive, interpret, and respond to open driving scenarios. Such understanding is typically founded upon →

embodied scene understanding autonomous agents vision-language models embodied language model spatial localization

发现论文，激发创造

DriveVLM：自动驾驶与大型视觉语言模型的融合

DriveVLM 是一种利用 Vision-Language Models（VLMs）进行场景理解和规划的自动驾驶系统，通过一系列思维链模块实现场景描述、分析和层次规划，并提出了 DriveVLM-Dual 作为一种混合系统以解决 VLMs 在空间推理和计算需求上的限制，实现了稳健的空间理解和实时推理速度，通过对 nuScenes 数据集和 SUP-AD 数据集的广泛实验，证明了 DriveVLM 和 DriveVLM-Dual 在复杂和不可预测的驾驶条件下的有效性和增强性能。

Feb, 2024

GPT-4V (ision) 自动驾驶中的视觉语言模型的早期探索

该研究论文评估了最新的先进视觉语言模型（VLM）在自动驾驶场景中的应用，发现该模型在场景理解和因果推理方面表现出优越性能，但在方向辨别、交通信号识别、视觉对接以及空间推理任务方面仍存在挑战。

Nov, 2023

SpatialBot：基于视觉语言模型的精确空间理解

通过为 Vision Language Models 提供 RGB 和深度图像，我们提出了 SpatialBot 来改进其对空间的理解能力，并构建了 SpatialQA 数据集用于训练深度理解，最后通过 SpatialBench 对其在不同层次上的空间理解能力进行综合评估，实验结果表明在 SpatialQA 数据集上训练的 SpatialBot 在空间理解方面取得了显著的改进。

Jun, 2024

EmbSpatial-Bench：基于大型视觉 - 语言模型的空间理解能力基准评估

近期大型视觉 - 语言模型（LVLMs）的快速发展表明它们在具体任务中的潜力，然而，目前的 LVLMs 在具体环境中的空间理解能力尚未得到充分评估，这使得当前 LVLMs 与合格的具体智能之间存在未知差距。为此，我们构建了 EmbSpatial-Bench，这是一个用于评估 LVLMs 具体空间理解能力的基准测试。该基准测试是从具体场景自动衍生而来的，涵盖了从个体视角出发的 6 种空间关系。实验证明了研究结果，即当前的 LVLMs（甚至包括 GPT-4V）的容量不足，我们进一步提出了 EmbSpatial-SFT，这是一个旨在提高 LVLMs 具体空间理解能力的指导调优数据集。

Jun, 2024

VELMA：街景视觉语言导航中 LLM 代理人的语言表达体现

该研究提出了一个用于视觉和语言导航的具有身体感知的语言模型（VELMA），它能够通过人类书写的导航指令中提取位置信息和使用 CLIP 算法来处理图像信息并实现与真实街景地图的交互，相比先前的研究，在两个数据集中，VELMA 完成任务的成功率相比前者提高了 25％-30％

Jul, 2023

将互联网规模的视觉 - 语言模型化为具体智能体

本文提出了一种利用预训练的视觉语言模型（VLMs）来监督具有目的地行动的体验型智能体从而让其学会与不同类别的对象交互的新型方式。通过少量提示和后见之明体验回放（HER）技术，我们可以使体验型智能体学习抽象类别的成员资格以及与特定任务相关的语境，在利用因特网规模的 VLMs 的通用语言基础的同时完成语言建模。

Jan, 2023

AlanaVLM：一种用于视角视频理解的多模态具身 AI 基础模型

通过三个主要贡献，我们提出了能够与人类高效协作的 AI 个人助手的机器人或穿戴设备部署需要体现理解。为了填补当前视觉 - 语言模型在第三人视角视频上的研究的空白，我们引入了以自我中心感知经验为特定的视角视频字幕和问题回答任务训练视觉 - 语言模型的自我中心视频理解数据集（EVUD）。然后，我们提出了通过 EVUD 上的参数高效方法训练的 7B 参数的 AlanaVLM。最后，我们评估了 AlanaVLM 在 OpenEQA 上的能力，即一个对于具有挑战性的实体视频问题回答的基准测试。我们的模型达到了最先进的性能，超过了包括使用 GPT-4 作为规划者的强 Socratic 模型在内的开源模型 3.6%。此外，我们超越了 Claude 3 和 Gemini Pro Vision 1.0，与 Gemini Pro 1.5 和 GPT-4V 相比展示了竞争性的结果，甚至在空间推理上超过了后者。这项研究为构建能够在机器人或穿戴设备中部署的高效视觉 - 语言模型铺平了道路，利用体现理解的视频理解，无缝地与人类协作进行日常任务，为下一代具有体现 AI 特性的技术做出贡献。

Jun, 2024

基于大语言模型的对话式生成自动驾驶仿真场景

本文描述了一个支持扩展多模态交互的系统，通过使用大型语言模型 (LLMs) 将用户的英语语句映射到领域特定的代码，我们探索了 LLMs 在上下文敏感性方面捕捉演算发言者意图的程度。

Oct, 2023

DriVLMe: 用具身化和社交经验增强基于 LLM 的自动驾驶代理

基于视频和语言模型的 DriVLMe 智能代理在自动驾驶中表现出相对竞争力，但仍存在推理时间过长、训练数据不平衡、视觉理解能力有限、多轮交互挑战以及处理环境动态和任务变化等实时场景中的困难。

Jun, 2024

自动驾驶和智能交通系统中的视觉语言模型

该研究论文综述了视觉语言模型在自动驾驶和智能交通系统领域的应用，包括当前模型和数据集，并探讨了潜在的应用和新兴的研究方向，同时详细讨论了挑战和研究空白。该论文旨在向研究人员提供有关 VLM 在自动驾驶和智能交通系统中的最新工作和未来趋势。

Oct, 2023