Reason2Drive：面向自动驾驶的可解释和链式推理

Dec, 2023

Reason2Drive：面向自动驾驶的可解释和链式推理

Reason2Drive: Towards Interpretable and Chain-based Reasoning for Autonomous Driving

Ming Nie, Renyuan Peng, Chunwei Wang, Xinyue Cai, Jianhua Han...

TL;DR提出了一个用于自动驾驶的新数据集 Reason2Drive，其中包含了 600K 个视频文本对，以促进对复杂驾驶环境中可解释推理的研究。基于该数据集进行实验评估各种现有的视觉语言模型，并通过开发一种有效的方法来提高模型的推理准确性。

Abstract

Large vision-language models (VLMs) have garnered increasing interest in autonomous driving areas, due to their advanced capabilities in complex

vision-language models autonomous driving reasoning dataset evaluation metric

发现论文，激发创造

DriveVLM：自动驾驶与大型视觉语言模型的融合

DriveVLM 是一种利用 Vision-Language Models（VLMs）进行场景理解和规划的自动驾驶系统，通过一系列思维链模块实现场景描述、分析和层次规划，并提出了 DriveVLM-Dual 作为一种混合系统以解决 VLMs 在空间推理和计算需求上的限制，实现了稳健的空间理解和实时推理速度，通过对 nuScenes 数据集和 SUP-AD 数据集的广泛实验，证明了 DriveVLM 和 DriveVLM-Dual 在复杂和不可预测的驾驶条件下的有效性和增强性能。

Feb, 2024

DriveLM: 基于图像问答的驾驶

我们研究了如何将在网络规模的数据上训练的视觉 - 语言模型（VLMs）整合到端到端驾驶系统中，以增强泛化能力，并实现与人类用户的互动。通过在感知、预测和规划等方面建立图结构推理的问答对模型，我们提出了 Graph VQA 任务，以模拟人类的推理过程。我们构建了基于 nuScenes 和 CARLA 的数据集（DriveLM-Data），并提出了一个基于 VLM 的基准方法（DriveLM-Agent），用于同时进行 Graph VQA 和端到端驾驶。实验证明 Graph VQA 为驾驶场景的推理提供了简单和有原则的框架，DriveLM-Data 为这一任务提供了具有挑战性的基准。我们的 DriveLM-Agent 基线在与最先进的专用驾驶架构相比的端到端自动驾驶方面表现出了竞争力。值得注意的是，当其在未见过的对象或传感器配置上进行零样本评估时，其效果更为显著。希望这项工作能为如何将 VLMs 应用于自动驾驶提供新的启示。为了促进未来的研究，我们将所有的代码、数据和模型公开提供。

Dec, 2023

GPT-4V (ision) 自动驾驶中的视觉语言模型的早期探索

该研究论文评估了最新的先进视觉语言模型（VLM）在自动驾驶场景中的应用，发现该模型在场景理解和因果推理方面表现出优越性能，但在方向辨别、交通信号识别、视觉对接以及空间推理任务方面仍存在挑战。

Nov, 2023

测量和改进视觉 - 语言模型的思维链推理

通过 LLM-Human-in-the-Loop 流程和 CURE 基准，我们评估了现有的 VLMs，并发现即使是表现最佳的模型也无法展示出强大的视觉推理能力和一致性，表明需要大量努力使 VLMs 能够像人类一样系统而一致地进行视觉推理。作为初步步骤，我们提出了一个两阶段训练框架，旨在提高 VLMs 的推理性能和一致性。第一阶段涉及使用由 LLMs 自动生成的逐步推理样本对 VLMs 进行监督微调。在第二阶段，我们进一步通过结合 LLMs 提供的反馈来增强训练过程，以产生高度一致和可靠的推理链。我们在推理性能和一致性方面经验上突出了我们框架的有效性。

Sep, 2023

基于大型语言模型的自动驾驶的混合推理

研究表明，大型语言模型（LLMs）在自动驾驶场景中能够适应和应用算术和常识推理的组合，通过分析检测到的物体和传感器数据、理解驾驶法规和物理规律，并提供额外的上下文信息，从而改善自动驾驶车辆的制动和油门控制，以做出更准确的决策。

Feb, 2024

接收、推理和反应：在自动驾驶车辆中根据您的指令驾驶的大型语言模型

通过利用大型语言模型（LLMs）的语言和推理能力，本研究提出了一个新的框架来增强自动驾驶车辆决策过程。通过在不同场景中进行试验和实时个性化示范，我们展示了利用 LLMs 能够改善驾驶决策、提供个性化驾驶体验并增强自动驾驶的安全和效果。

Oct, 2023

自动化评估大型视觉语言模型对自动驾驶的极端情况

提出了 CODA-LM，这是一个用于自动驾驶的新兴视觉 - 语言基准测试，通过利用文本而不使用图像输入，使强大的文本 - 语言模型能够评估 LVLM 在自动驾驶场景中的能力，并揭示了它们与人类偏好的更强的一致性。实验证明，即使是像 GPT-4V 这样的商用 LVLM 也无法很好地处理路上的特殊情况，这表明我们离强大的 LVLM 驱动的智能驾驶代理系统还有很长的路要走，希望 CODA-LM 能够成为推动未来发展的催化剂。

Apr, 2024

自动驾驶的视觉语言规划

自主驾驶中的场景理解和推理是复杂而具有挑战性的任务。本文提出了一种新颖的 Vision-Language-Planning（VLP）框架，通过利用自然语言模型来弥合语义理解和自主驾驶之间的鸿沟，从而增强自动驾驶系统的规划性能，提高在挑战性场景中的表现，以及在面对新型城市环境时的强大泛化能力。

Jan, 2024

GeomVerse：几何推理的大型模型的系统评估

大语言模型在多步数学推理方面表现出色，但包含文字和图像的数学推理问题需要评估视觉语言模型的推理能力。通过几何问题的镜头，我们通过多个角度评估视觉语言模型的推理能力。我们创建了一个合成的几何问题数据集，具有可控的难度级别，从而进行系统评估。我们的基准测试结果表明，这些模型在几何等主题的推理能力上并不如先前的基准测试所暗示的那样出色，特别是通过我们基准测试的多个深度级别构建，因为解决更深的问题需要更长的推理链而不是额外的记忆知识。我们释放这个数据集供进一步研究使用。

Dec, 2023

自动驾驶问答的多帧、轻量级和高效视觉语言模型

EM-VLM4AD 是一种轻量级、高效的多帧视觉语言模型，用于自动驾驶中的视觉问答任务，相较于先前方法，它在内存和浮点运算资源的使用上减少了至少 10 倍，并在 DriveLM 数据集上获得了更高的 BLEU-4、METEOR、CIDEr 和 ROGUE 分数。

Mar, 2024