自动化评估大型视觉语言模型对自动驾驶的极端情况

Apr, 2024

自动化评估大型视觉语言模型对自动驾驶的极端情况

Automated Evaluation of Large Vision-Language Models on Self-driving Corner Cases

Yanze Li, Wenhua Zhang, Kai Chen, Yanxin Liu, Pengxiang Li...

TL;DR提出了 CODA-LM，这是一个用于自动驾驶的新兴视觉 - 语言基准测试，通过利用文本而不使用图像输入，使强大的文本 - 语言模型能够评估 LVLM 在自动驾驶场景中的能力，并揭示了它们与人类偏好的更强的一致性。实验证明，即使是像 GPT-4V 这样的商用 LVLM 也无法很好地处理路上的特殊情况，这表明我们离强大的 LVLM 驱动的智能驾驶代理系统还有很长的路要走，希望 CODA-LM 能够成为推动未来发展的催化剂。

Abstract

large vision-language models (LVLMs), due to the remarkable visual reasoning ability to understand images and videos, have received widespread attention in the autonomous driving domain, which significantly advan

large vision-language models autonomous driving interpretable end-to-end autonomous driving coda-lm lvlm-powered intelligent driving agent

发现论文，激发创造

DriveVLM：自动驾驶与大型视觉语言模型的融合

DriveVLM 是一种利用 Vision-Language Models（VLMs）进行场景理解和规划的自动驾驶系统，通过一系列思维链模块实现场景描述、分析和层次规划，并提出了 DriveVLM-Dual 作为一种混合系统以解决 VLMs 在空间推理和计算需求上的限制，实现了稳健的空间理解和实时推理速度，通过对 nuScenes 数据集和 SUP-AD 数据集的广泛实验，证明了 DriveVLM 和 DriveVLM-Dual 在复杂和不可预测的驾驶条件下的有效性和增强性能。

Feb, 2024

自动驾驶的多模态大型语言模型调查

基于大型语言模型和视觉基础模型的多模态人工智能系统在实时感知、决策和工具控制方面与人类相似，并在自动驾驶和地图系统中引起广泛关注。本文对多模态大型语言模型驱动系统的关键挑战、机会和未来工作进行了系统研究，概述了多模态大型语言模型的背景、发展以及自动驾驶的历史，并总结了在自动驾驶中使用多模态大型语言模型的工具、数据集和基准，同时介绍了第一届大型语言和视觉模型自动驾驶研讨会的相关工作，提出了使用多模态大型语言模型在自动驾驶系统中需要解决的若干重要问题，并呼吁学术界和工业界共同促进该领域的发展。

Nov, 2023

自动驾驶问答的多帧、轻量级和高效视觉语言模型

EM-VLM4AD 是一种轻量级、高效的多帧视觉语言模型，用于自动驾驶中的视觉问答任务，相较于先前方法，它在内存和浮点运算资源的使用上减少了至少 10 倍，并在 DriveLM 数据集上获得了更高的 BLEU-4、METEOR、CIDEr 和 ROGUE 分数。

Mar, 2024

GPT-4V (ision) 自动驾驶中的视觉语言模型的早期探索

该研究论文评估了最新的先进视觉语言模型（VLM）在自动驾驶场景中的应用，发现该模型在场景理解和因果推理方面表现出优越性能，但在方向辨别、交通信号识别、视觉对接以及空间推理任务方面仍存在挑战。

Nov, 2023

自动驾驶的大型语言模型调查

自动驾驶技术是改变交通运输和城市流动性的催化剂，从基于规则的系统过渡到基于数据驱动的策略。该研究论文系统地回顾了大型语言模型在自动驾驶领域的应用，并评估了当前技术进展、主要挑战和未来方向。

Nov, 2023

自主驾驶决策中大型语言模型的评估

利用大型语言模型（LLM）在自动驾驶中的相关能力进行定量研究，评估了 LLM 在空间识别、空间感知决策和遵守交通规则方面的准确性，并开发了一个使用 LLM 驾驶车辆的系统来验证其可行性。

Dec, 2023

像人类驾驶：用大语言模型重新思考自动驾驶

本文探讨使用大型语言模型（LLM）作为自动驾驶系统的潜力，认为传统优化和模块化的自动驾驶系统无法应对复杂情况，提出了理想的自动驾驶系统应具备的推理、解释和记忆三个关键能力，并通过实验证明 LLM 在自动驾驶中具有卓越的推理能力为人类化自动驾驶的发展提供了有价值的思路。

Jul, 2023

自主驾驶的大型语言模型：现实世界实验

利用大型语言模型（LLM）的 Talk-to-Drive 框架，通过处理人类的口头指令并结合上下文信息做出自主驾驶决策，实现个性化的安全、高效和舒适，成功率达到 100% 的执行命令，并在现实世界的实验中将不同驾驶员的接管率大幅降低至高达 90.1%，是在真实自主驾驶环境中应用 LLM 的首次实例。

Dec, 2023

LMDrive: 大型语言模型的闭环端到端驾驶

本文介绍了 LMDrive，一种语言引导的、端到端的、闭环自动驾驶框架，它独特地处理和整合多模态传感器数据和自然语言指令，实现了与人类和导航软件在真实教学环境中的交互。为了促进基于语言的闭环自动驾驶的进一步研究，我们还公开发布了包含约 64K 个指令跟踪数据片段的数据集，以及测试系统处理复杂指令和具有挑战性驾驶场景的 LangAuto 基准。进行了广泛的闭环实验以证明 LMDrive 的有效性。据我们所知，我们是首个利用 LGM 进行闭环端到端自动驾驶的工作。相关代码可在此网址找到：https://

Dec, 2023

基于大型语言模型的自动驾驶的混合推理

研究表明，大型语言模型（LLMs）在自动驾驶场景中能够适应和应用算术和常识推理的组合，通过分析检测到的物体和传感器数据、理解驾驶法规和物理规律，并提供额外的上下文信息，从而改善自动驾驶车辆的制动和油门控制，以做出更准确的决策。

Feb, 2024