CoVLA：用于自动驾驶的综合视觉-语言-动作数据集

Aug, 2024

CoVLA：用于自动驾驶的综合视觉-语言-动作数据集

CoVLA: Comprehensive Vision-Language-Action Dataset for Autonomous Driving

Hidehisa Arai, Keita Miwa, Kento Sasaki, Yu Yamaguchi, Kohei Watanabe...

TL;DR本研究解决了自动驾驶中缺乏大规模注释数据集的问题，提出了CoVLA数据集，该数据集包含超过80小时的真实驾驶视频，并通过自动化数据处理生成准确的驾驶轨迹及详细的自然语言描述。研究表明，利用此数据集的多模态大语言模型在处理视觉、语言和动作方面表现出强大的能力，对推动自动驾驶领域的发展具有重要潜力。

Abstract

Autonomous Driving, particularly navigating complex and unanticipated scenarios, demands sophisticated reasoning and planning capabilities. While Multi-modal Large Language Models (MLLMs) offer a promising avenue for this, their use has been largely confined to understanding complex en

发现论文，激发创造

DriveGPT4: 大型语言模型实现可解释的端到端自动驾驶

DriveGPT4是一种可解释的端到端自动驾驶系统，利用大型语言模型，能够理解车辆行为、提供相应推理、回答用户的问题以增强交互，同时也能以端到端的方式预测车辆的低层控制信号，并且在多个任务中展现出优越的性能和通用性。

Oct, 2023

自动驾驶和智能交通系统中的视觉语言模型

该研究论文综述了视觉语言模型在自动驾驶和智能交通系统领域的应用，包括当前模型和数据集，并探讨了潜在的应用和新兴的研究方向，同时详细讨论了挑战和研究空白。该论文旨在向研究人员提供有关VLM在自动驾驶和智能交通系统中的最新工作和未来趋势。

Oct, 2023

自动驾驶的大型语言模型调查

自动驾驶技术是改变交通运输和城市流动性的催化剂，从基于规则的系统过渡到基于数据驱动的策略。该研究论文系统地回顾了大型语言模型在自动驾驶领域的应用，并评估了当前技术进展、主要挑战和未来方向。

Nov, 2023

GPT-4V(ision)自动驾驶中的视觉语言模型的早期探索

该研究论文评估了最新的先进视觉语言模型（VLM）在自动驾驶场景中的应用，发现该模型在场景理解和因果推理方面表现出优越性能，但在方向辨别、交通信号识别、视觉对接以及空间推理任务方面仍存在挑战。

Nov, 2023

自动驾驶的多模态大型语言模型调查

基于大型语言模型和视觉基础模型的多模态人工智能系统在实时感知、决策和工具控制方面与人类相似，并在自动驾驶和地图系统中引起广泛关注。本文对多模态大型语言模型驱动系统的关键挑战、机会和未来工作进行了系统研究，概述了多模态大型语言模型的背景、发展以及自动驾驶的历史，并总结了在自动驾驶中使用多模态大型语言模型的工具、数据集和基准，同时介绍了第一届大型语言和视觉模型自动驾驶研讨会的相关工作，提出了使用多模态大型语言模型在自动驾驶系统中需要解决的若干重要问题，并呼吁学术界和工业界共同促进该领域的发展。

Nov, 2023

DriveVLM：自动驾驶与大型视觉语言模型的融合

DriveVLM是一种利用Vision-Language Models（VLMs）进行场景理解和规划的自动驾驶系统，通过一系列思维链模块实现场景描述、分析和层次规划，并提出了DriveVLM-Dual作为一种混合系统以解决VLMs在空间推理和计算需求上的限制，实现了稳健的空间理解和实时推理速度，通过对nuScenes数据集和SUP-AD数据集的广泛实验，证明了DriveVLM和DriveVLM-Dual在复杂和不可预测的驾驶条件下的有效性和增强性能。

Feb, 2024

自动化评估大型视觉语言模型对自动驾驶的极端情况

提出了CODA-LM，这是一个用于自动驾驶的新兴视觉-语言基准测试，通过利用文本而不使用图像输入，使强大的文本-语言模型能够评估LVLM在自动驾驶场景中的能力，并揭示了它们与人类偏好的更强的一致性。实验证明，即使是像GPT-4V这样的商用LVLM也无法很好地处理路上的特殊情况，这表明我们离强大的LVLM驱动的智能驾驶代理系统还有很长的路要走，希望CODA-LM能够成为推动未来发展的催化剂。

Apr, 2024

探究多模态LLMs作为驾驶世界模型

我们评估了多模态大型语言模型（MLLMs）在自动驾驶领域的应用，并挑战和验证了一些常见假设，重点关注它们在封闭环控制环境下通过图像/帧序列来推理和解释动态行驶情景的能力。我们的研究揭示了这些模型在预测复杂、动态的驾驶环境中存在的不足，对于描绘动态行为的帧之间能否综合连贯的叙述或逻辑序列存在很大困难。我们通过使用专门设计的模拟器DriveSim生成多样化的驾驶情景，进行了一项全面的实验研究来评估各种MLLMs作为驾驶世界模型的能力，并为评估驾驶中的MLLMs贡献了全面的开源代码和一个新数据集“Eval-LLM-Drive”。我们的研究结果突出了当前领先的MLLMs在真实动态环境中应用能力上的重要差距，强调了需要改进基础模型以提高其在真实世界动态环境中的适用性。

May, 2024

DriveGenVLM：基于视觉语言模型的真实世界视频生成用于自主驾驶

本研究针对自主驾驶领域中对复杂场景理解能力不足的问题，提出了DriveGenVLM框架，利用去噪扩散概率模型生成真实感驾驶视频，并结合视觉语言模型进行理解。重要发现表明，生成的视频及其叙述能够有效提升交通场景理解和导航能力，对自主驾驶技术有潜在的积极影响。

Aug, 2024

大型视觉-语言模型能否获得驾驶执照？面向可靠通用人工智能的基准研究

本研究关注当前大型视觉-语言模型在自动驾驶中的专业性缺失，提出IDKB数据集以填补这一空白。IDKB包含来自多个国家的驾驶手册、理论测试数据和模拟路考数据，为自动驾驶模型提供全面的驾驶知识。在对15个LVLM进行测试后，发现经过微调的模型显著提升了性能，验证了该数据集的重要性。

Sep, 2024