DME-Driver: 自主驾驶中融合人类决策逻辑与 3D 场景感知

Jan, 2024

DME-Driver: 自主驾驶中融合人类决策逻辑与 3D 场景感知

DME-Driver: Integrating Human Decision Logic and 3D Scene Perception in Autonomous Driving

Wencheng Han, Dongqian Guo, Cheng-Zhong Xu, Jianbing Shen

TL;DRDME-Driver 是一种新的自动驾驶系统，通过利用强大的视觉语言模型作为决策者和以规划导向的感知模型作为控制信号生成器，以提高自动驾驶系统的性能和可靠性。

Abstract

In the field of autonomous driving, two important features of autonomous driving car systems are the explainability of decision logic and the accuracy of environmental perception. This paper introduces

autonomous driving dme-driver explanation environmental perception vision language model

发现论文，激发创造

ADriver-I: 无人驾驶的通用世界模型

基于多模态大语言模型和扩散技术，我们提出了一种自主驾驶世界模型 ADriver-I，该模型以交织的视觉 - 动作对为基础，能够预测当前帧的控制信号，并使用历史的视觉 - 动作对和生成的控制信号来预测未来的帧，通过无限反馈循环，ADriver-I 实现了自主驾驶。我们通过在 nuScenes 和大规模私有数据集上进行广泛实验，证明了 ADriver-I 在性能上的卓越表现，希望该模型能为未来自主驾驶和具身智能提供新的洞见。

Nov, 2023

D2E - 一个涉及驾驶状态和人类评估的自主决策数据集

通过深度学习技术的进步，数据驱动方法在自动驾驶的决策中越来越多地使用，而数据集的质量极大地影响了模型的性能。然而，尽管当前的数据集在车辆和环境数据的收集方面取得了重大进展，但对于包括驾驶员状态和人类评估在内的人为因素数据的重视还不够。此外，现有的数据集大部分由车辆跟随等简单场景组成，交互程度较低。本文介绍了一种名为 “Driver to Evaluation”（D2E）的自动决策数据集，其中包含驾驶员状态、车辆状态、环境情况以及来自人类评审人员的评估分数的数据，涵盖了车辆决策的全面过程。除了常规的代理和周围环境信息外，我们不仅收集了包括第一视角视频、生理信号和眼部注意力数据在内的驾驶员因素数据，还提供了来自 40 名志愿者的主观评分。该数据集包含了驾驶模拟器场景和真实道路场景的混合数据。设计和筛选了高交互情况以确保行为多样性。通过数据组织、分析和预处理，D2E 包含了超过 1100 个交互驾驶案例数据段，涵盖了从人类驾驶因素到评估结果的内容，为支持数据驱动的决策相关算法的开发提供了支持。

Apr, 2024

自动驾驶的语言代理

我们提出了一种从普通流程转变的方法，即通过引入大型语言模型作为认知代理，将人类智能融入自动驾驶系统，实现更加人性化的自动驾驶。我们的方法通过函数调用访问一个多功能工具库、具有常识和经验知识的认知记忆以进行决策制定，并且具备由思维推理、任务规划、动作规划和自我反思构成的推理引擎。在大规模 nuScenes 基准测试中，我们的 Agent-Driver 显著优于现有的自动驾驶方法，并且还表现出较强的可解释性和少样本学习能力。

Nov, 2023

GAD - 基于生成学习的高清地图无驾驶

提出一种基于深度学习的方法，将预测、决策和规划模块融合起来，以克服自动驾驶系统中基于规则的方法在真实世界应用中的不足，特别是在城市场景中。所提出的 DNN 模型仅经过 10 小时的人工驾驶数据训练，并且支持市场上所有的批量生产 ADAS 功能。在此论文中，展示了该方法在不对车辆的传感器设置和计算平台进行任何修改的情况下，通过部署到集约的测试车辆上，展示了其可行性、可用性和商业潜力。

May, 2024

DriVLMe: 用具身化和社交经验增强基于 LLM 的自动驾驶代理

基于视频和语言模型的 DriVLMe 智能代理在自动驾驶中表现出相对竞争力，但仍存在推理时间过长、训练数据不平衡、视觉理解能力有限、多轮交互挑战以及处理环境动态和任务变化等实时场景中的困难。

Jun, 2024

基于学习预测的自主驾驶交互合并决策

本篇论文提出了一种自动驾驶的决策方法，采用了 POMDP 和 Monte Carlo tree search 等方法对车辆在道路上的交互进行建模和规划，实现了高质量的行驶决策。

Mar, 2023

深度驾驶：自主驾驶直接感知的能力学习

本文提出一种基于直接感知的自动驾驶范式，使用深度卷积神经网络将输入图像映射到与驾驶相关的感知指标，并证明该方法可以成功地应用于不同的虚拟环境和现实场景。

May, 2015

基于语义深度云地图和多智能体技术的端到端自动驾驶

本文提出了一种深度学习模型，通过端到端和多任务学习方法进行训练，同时执行感知和控制任务，用于自动驾驶车辆的点对点导航；在 CARLA 模拟器上进行评估，同时与其他已有模型进行比较和消融实验，实现了更高的驾驶分数。

Apr, 2022

OmniDrive: 全面的 LLM-Agent 自动驾驶框架，具备三维感知、推理和规划功能

基于多模态大型语言模型（MLLMs）的进展引起了对基于 LLM 的自动驾驶代理的兴趣，以利用其强大的推理能力。然而，利用 MLLM 的强大推理能力来改进规划行为具有挑战性，因为规划需要超越 2D 推理的全面 3D 情境感知。为了解决这个挑战，我们的工作提出了一个全面框架，用于代理模型和 3D 驾驶任务之间的强力对齐。我们的框架以一个新颖的 3D MLLM 架构为起点，该架构使用稀疏查询将视觉表示提升和压缩为 3D，然后将其输入到 LLM 中。这种基于查询的表示使我们能够联合编码动态对象和静态地图元素（例如交通车道），为 3D 情境中的感知 - 行动对齐提供了一种简化的世界模型。我们进一步提出了 OmniDrive-nuScenes，一个新的视觉问答数据集，挑战模型在真实的 3D 情境中的全面视觉问答任务，包括场景描述、交通规则、3D 接地、反事实推理、决策制定和规划。广泛的研究结果显示了所提出的架构的有效性以及 VQA 任务对于复杂 3D 场景中的推理和规划的重要性。

May, 2024

面向分布感知的自主驾驶安全目标预测和符合模型规划

本文提出了一种基于模块化架构的学车任务分解方法，在障碍感知、目标预测和规划方面均取得了优秀的方法，并在 CARLA 模拟器上实现了最新的优秀结果。

Dec, 2022