角度俯视注入多模型的全面自主驾驶理解

Jan, 2024

角度俯视注入多模型的全面自主驾驶理解

Holistic Autonomous Driving Understanding by Bird's-Eye-View Injected Multi-Modal Large Models

Xinpeng Ding, Jinahua Han, Hang Xu, Xiaodan Liang, Wei Zhang...

TL;DR多模态大语言模型在自动驾驶任务中的应用，使用 NuInstruct 数据集和 BEV-InMLLM 方法进行多视角、时态相关信息的驾驶任务处理，相比现有的大语言模型，BEV-InMLLM 取得约 9% 的性能提升。

Abstract

The rise of multimodal large language models (MLLMs) has spurred interest in language-based driving tasks. However, existing research typically focuses on limited tasks and often omits key multi-view and temporal information which is crucial for robust →

multimodal large language models autonomous driving nuinstruct bev-inmllm instruction-response pairs

发现论文，激发创造

Talk2BEV: 自然语言增强的自动驾驶鸟瞰地图

Talk2BEV 是一个面向自动驾驶环境中鸟瞰地图的大规模视觉语言模型接口。它将语言和视觉模型与 BEV 结构化地图相结合，消除了任务特定模型的需求，从而能够满足各种自动驾驶任务，包括视觉和空间推理、预测交通参与者的意图以及基于视觉线索的决策。在大量场景理解任务上对 Talk2BEV 进行了广泛评估，并发布了包含 1000 个人工注释的 BEV 场景的基准数据集 Talk2BEV-Bench，其中包含超过 20,000 个问题和真实答案。

Oct, 2023

自动驾驶的多模态大型语言模型调查

基于大型语言模型和视觉基础模型的多模态人工智能系统在实时感知、决策和工具控制方面与人类相似，并在自动驾驶和地图系统中引起广泛关注。本文对多模态大型语言模型驱动系统的关键挑战、机会和未来工作进行了系统研究，概述了多模态大型语言模型的背景、发展以及自动驾驶的历史，并总结了在自动驾驶中使用多模态大型语言模型的工具、数据集和基准，同时介绍了第一届大型语言和视觉模型自动驾驶研讨会的相关工作，提出了使用多模态大型语言模型在自动驾驶系统中需要解决的若干重要问题，并呼吁学术界和工业界共同促进该领域的发展。

Nov, 2023

DriveVLM：自动驾驶与大型视觉语言模型的融合

DriveVLM 是一种利用 Vision-Language Models（VLMs）进行场景理解和规划的自动驾驶系统，通过一系列思维链模块实现场景描述、分析和层次规划，并提出了 DriveVLM-Dual 作为一种混合系统以解决 VLMs 在空间推理和计算需求上的限制，实现了稳健的空间理解和实时推理速度，通过对 nuScenes 数据集和 SUP-AD 数据集的广泛实验，证明了 DriveVLM 和 DriveVLM-Dual 在复杂和不可预测的驾驶条件下的有效性和增强性能。

Feb, 2024

自动驾驶问答的多帧、轻量级和高效视觉语言模型

EM-VLM4AD 是一种轻量级、高效的多帧视觉语言模型，用于自动驾驶中的视觉问答任务，相较于先前方法，它在内存和浮点运算资源的使用上减少了至少 10 倍，并在 DriveLM 数据集上获得了更高的 BLEU-4、METEOR、CIDEr 和 ROGUE 分数。

Mar, 2024

BEVFusion: 多任务多传感器融合及其基于统一俯视图的表示

本研究提出 BEVFusion，这是一种有效和通用的多任务多传感器融合框架，通过在共享的鸟瞰图表示空间中统一多模态特征，从根本上支持不同的 3D 感知任务，并在 nuScenes 上创立了新的技术水平

May, 2022

LetsMap：无监督语义 BEV 地图的表示学习

该研究提出了一种无监督学习方法，从单眼正视图像生成语义鸟瞰地图，以在自动驾驶的各种决策任务中提供强大的遮挡推理能力，其使用了 1% 的标注数据和无额外标记数据，在 KITTI-360 和 nuScenes 数据集上表现与现有最先进的方法相当。

May, 2024

BEV-CLIP: 复杂场景下自动驾驶的多模态 BEV 检索方法

我们提出了第一种多模式 Bird's-Eye View（BEV）检索方法 BEV-CLIP，它利用描述性文本作为输入来检索相应的场景，通过利用大型语言模型（LLM）的语义特征提取能力来实现零样本检索，并结合来自知识图的半结构化信息来提高语义丰富性和嵌入的多样性，我们的实验结果在 NuScenes 数据集的文本到 BEV 特征检索上达到了 87.66% 的准确率，我们论文中的示例案例支持我们的检索方法也可以有效识别某些长尾场景。

Jan, 2024

使用 LLMs 增强端到端自主驾驶模仿学习的多模态记号提示

利用大型语言模型（LLMs）与强化学习相结合的混合端到端学习框架，通过基于多模态提示标记的基本驾驶模仿学习与 LLMs 的结合，来提高自动驾驶性能。

Apr, 2024

UniFusion：用于鸟瞰图空时表示的统一多视角融合变压器

本文提出一种新的空时融合 BEV 表征方法，可支持长距离融合，具有时变自适应权重，有效避免传统方法中的信息丢失和充分利用功能，同时实现地图分割任务的最优性能。

Jul, 2022

探究多模态 LLMs 作为驾驶世界模型

我们评估了多模态大型语言模型（MLLMs）在自动驾驶领域的应用，并挑战和验证了一些常见假设，重点关注它们在封闭环控制环境下通过图像 / 帧序列来推理和解释动态行驶情景的能力。我们的研究揭示了这些模型在预测复杂、动态的驾驶环境中存在的不足，对于描绘动态行为的帧之间能否综合连贯的叙述或逻辑序列存在很大困难。我们通过使用专门设计的模拟器 DriveSim 生成多样化的驾驶情景，进行了一项全面的实验研究来评估各种 MLLMs 作为驾驶世界模型的能力，并为评估驾驶中的 MLLMs 贡献了全面的开源代码和一个新数据集 “Eval-LLM-Drive”。我们的研究结果突出了当前领先的 MLLMs 在真实动态环境中应用能力上的重要差距，强调了需要改进基础模型以提高其在真实世界动态环境中的适用性。

May, 2024