DriveLM: 基于图像问答的驾驶

Dec, 2023

DriveLM: Driving with Graph Visual Question Answering

Chonghao Sima, Katrin Renz, Kashyap Chitta, Li Chen, Hanxue Zhang...

TL;DR我们研究了如何将在网络规模的数据上训练的视觉 - 语言模型（VLMs）整合到端到端驾驶系统中，以增强泛化能力，并实现与人类用户的互动。通过在感知、预测和规划等方面建立图结构推理的问答对模型，我们提出了 Graph VQA 任务，以模拟人类的推理过程。我们构建了基于 nuScenes 和 CARLA 的数据集（DriveLM-Data），并提出了一个基于 VLM 的基准方法（DriveLM-Agent），用于同时进行 Graph VQA 和端到端驾驶。实验证明 Graph VQA 为驾驶场景的推理提供了简单和有原则的框架，DriveLM-Data 为这一任务提供了具有挑战性的基准。我们的 DriveLM-Agent 基线在与最先进的专用驾驶架构相比的端到端自动驾驶方面表现出了竞争力。值得注意的是，当其在未见过的对象或传感器配置上进行零样本评估时，其效果更为显著。希望这项工作能为如何将 VLMs 应用于自动驾驶提供新的启示。为了促进未来的研究，我们将所有的代码、数据和模型公开提供。

Abstract

We study how vision-language models (VLMs) trained on web-scale data can be integrated into end-to-end driving systems to boost generalization and enable interactivity with human users. While recent approaches ad

vision-language models end-to-end driving systems graph vqa perception, prediction, and planning autonomous driving

发现论文，激发创造

DriveVLM：自动驾驶与大型视觉语言模型的融合

DriveVLM 是一种利用 Vision-Language Models（VLMs）进行场景理解和规划的自动驾驶系统，通过一系列思维链模块实现场景描述、分析和层次规划，并提出了 DriveVLM-Dual 作为一种混合系统以解决 VLMs 在空间推理和计算需求上的限制，实现了稳健的空间理解和实时推理速度，通过对 nuScenes 数据集和 SUP-AD 数据集的广泛实验，证明了 DriveVLM 和 DriveVLM-Dual 在复杂和不可预测的驾驶条件下的有效性和增强性能。

Feb, 2024

自动驾驶问答的多帧、轻量级和高效视觉语言模型

EM-VLM4AD 是一种轻量级、高效的多帧视觉语言模型，用于自动驾驶中的视觉问答任务，相较于先前方法，它在内存和浮点运算资源的使用上减少了至少 10 倍，并在 DriveLM 数据集上获得了更高的 BLEU-4、METEOR、CIDEr 和 ROGUE 分数。

Mar, 2024

Reason2Drive：面向自动驾驶的可解释和链式推理

提出了一个用于自动驾驶的新数据集 Reason2Drive，其中包含了 600K 个视频文本对，以促进对复杂驾驶环境中可解释推理的研究。基于该数据集进行实验评估各种现有的视觉语言模型，并通过开发一种有效的方法来提高模型的推理准确性。

Dec, 2023

走向自顶向下推理：可解释的多代理视觉问答方法

本论文提出了一个可解释的多智能体协作框架，通过利用在广泛语料库上训练的大型语言模型中嵌入的知识，以人类认知为灵感，使用三个智能体，即探索者、回答者和整合者，进行自顶向下推理过程，从而明确地构建特定图像场景的多视图知识库，以自顶向下的处理方式推理答案。我们在多样化的视觉问答数据集和视觉语言模型上对我们的方法进行了广泛评估，并通过全面的实验结果证明了其广泛的适用性和可解释性。

Nov, 2023

GPT-4V (ision) 自动驾驶中的视觉语言模型的早期探索

该研究论文评估了最新的先进视觉语言模型（VLM）在自动驾驶场景中的应用，发现该模型在场景理解和因果推理方面表现出优越性能，但在方向辨别、交通信号识别、视觉对接以及空间推理任务方面仍存在挑战。

Nov, 2023

利用视觉问答解释自主驾驶行为

通过视觉问答 (VQA) 框架解释自动驾驶的决策，以提高驾驶安全性。

Jul, 2023

自动驾驶预训练视觉问答模型的性能分析

这篇简短研究在回答与驾驶场景相关的问题的背景下，对 ViLBERT、ViLT 和 LXMERT 这三种流行的视觉问答（VQA）模型进行初步分析。通过比较计算机视觉专家提供的参考答案与模型输出答案的相似性来评估这些模型的性能。分析了多模态架构中的变换器利用情况来选择合适的模型，结果表明，结合跨模态注意力和后期融合技术的模型在驾驶场景中生成改进答案的潜力很大。这项初步分析为即将进行的涉及九个 VQA 模型的全面比较研究奠定了基础，同时为进一步研究 VQA 模型在自动驾驶场景中的有效性提供了背景。附加材料可在此网址获取：https://example.com/。

Jul, 2023

SpatialVLM：赋予视觉语言模型空间推理能力

通过在互联网规模的空间推理数据上训练 Visual Language Model（VLM），我们显著增强了其在定量和定性空间 VQA 方面的能力，并实现了链式思维空间推理和机器人学等新颖应用。

Jan, 2024

自动化评估大型视觉语言模型对自动驾驶的极端情况

提出了 CODA-LM，这是一个用于自动驾驶的新兴视觉 - 语言基准测试，通过利用文本而不使用图像输入，使强大的文本 - 语言模型能够评估 LVLM 在自动驾驶场景中的能力，并揭示了它们与人类偏好的更强的一致性。实验证明，即使是像 GPT-4V 这样的商用 LVLM 也无法很好地处理路上的特殊情况，这表明我们离强大的 LVLM 驱动的智能驾驶代理系统还有很长的路要走，希望 CODA-LM 能够成为推动未来发展的催化剂。

Apr, 2024

通过大型语言模型和推理问题提示改进零样本视觉问答

通过生成推理问题提示，为零样本情景中的大型语言模型在零样本视觉问答任务中的问题回答问题选择和生成保持完整性、语义合理性和句法不变性，从而显著提高了大型语言模型在零样本情景中的性能。

Nov, 2023