AD-H：具有分层代理的自主驾驶

Jun, 2024

AD-H: Autonomous Driving with Hierarchical Agents

Zaibin Zhang, Shiyu Tang, Yuanhang Zhang, Talas Fu, Yifan Wang...

TL;DR通过使用多模态大型语言模型（MLLMs）实现自动驾驶，连接高级指令和低级控制信号，形成多层次驱动系统 AD-H 提供了优秀的驾驶性能和普适性，充分发挥了 MLLM 在感知、推理和规划方面的潜力。

Abstract

Due to the impressive capabilities of multimodal large language models (MLLMs), recent works have focused on employing MLLM-based agents for autonomous driving in large-scale and dynamic environments. However, pr

multimodal large language models autonomous driving language generation hierarchical multi-agent driving system generalizability

发现论文，激发创造

利用大型语言模型赋能自动驾驶：一个安全的角度

自动驾驶面临重要的挑战：公众信任问题和长尾未知驾驶场景的安全担忧。为解决这个问题，本文提倡在自动驾驶系统中整合大型语言模型，充分利用其强大的常识知识、推理能力和人机交互能力，将其作为智能决策者来提升整体自动驾驶性能和安全性。本文展示了两个案例研究的结果，证实了我们方法的有效性。此外，我们还讨论了将大型语言模型整合到其他自动驾驶软件组件 (包括感知、预测和仿真) 的潜在优势。尽管在案例研究中面临挑战，但大型语言模型的整合对于加强自动驾驶的安全性和性能具有潜在的希望和益处。

Nov, 2023

自动驾驶的语言代理

我们提出了一种从普通流程转变的方法，即通过引入大型语言模型作为认知代理，将人类智能融入自动驾驶系统，实现更加人性化的自动驾驶。我们的方法通过函数调用访问一个多功能工具库、具有常识和经验知识的认知记忆以进行决策制定，并且具备由思维推理、任务规划、动作规划和自我反思构成的推理引擎。在大规模 nuScenes 基准测试中，我们的 Agent-Driver 显著优于现有的自动驾驶方法，并且还表现出较强的可解释性和少样本学习能力。

Nov, 2023

DriveMLM: 使用行为规划状态来对齐多模态大型语言模型和自动驾驶

基于大型语言模型的自动驾驶框架 DriveMLM 并行闭环驾驶，在真实模拟器中进行，通过标准化决策状态与车辆控制命令之间的连接、使用多模态语言模型模拟行为规划模块以及设计有效的数据引擎进行数据集收集，该研究基于 CARLA Town05 Long 实验表明模型的驾驶得分达到 76.1，超过 Apollo 基准 4.7 分，验证了模型的有效性。

Dec, 2023

自动驾驶的大型语言模型调查

自动驾驶技术是改变交通运输和城市流动性的催化剂，从基于规则的系统过渡到基于数据驱动的策略。该研究论文系统地回顾了大型语言模型在自动驾驶领域的应用，并评估了当前技术进展、主要挑战和未来方向。

Nov, 2023

ADriver-I: 无人驾驶的通用世界模型

基于多模态大语言模型和扩散技术，我们提出了一种自主驾驶世界模型 ADriver-I，该模型以交织的视觉 - 动作对为基础，能够预测当前帧的控制信号，并使用历史的视觉 - 动作对和生成的控制信号来预测未来的帧，通过无限反馈循环，ADriver-I 实现了自主驾驶。我们通过在 nuScenes 和大规模私有数据集上进行广泛实验，证明了 ADriver-I 在性能上的卓越表现，希望该模型能为未来自主驾驶和具身智能提供新的洞见。

Nov, 2023

LanguageMPC: 大规模语言模型作为自动驾驶决策者

利用大型语言模型作为决策组件，通过认知路径和行为翻译算法实现在复杂的自治驾驶场景中对人类常识的综合推理，将大型语言模型的决策与低级控制器无缝集成，通过参数矩阵适应实现行为指令的执行，在单一和多车辆任务中均优于基准方法，具备常识推理能力，进一步推进复杂自动驾驶场景中的安全性、高效性、泛化性和互操作性。

Oct, 2023

自动驾驶场景下的上下文学习

利用大型语言模型优化强化学习的奖励功能，使自动驾驶代理在行为上更加灵活、精准和类人化，探究奖励设计在塑造自动驾驶车辆行为中的重要影响，为更先进、类人化的自动驾驶系统的发展提供了有希望的方向。

May, 2024

像人类驾驶：用大语言模型重新思考自动驾驶

本文探讨使用大型语言模型（LLM）作为自动驾驶系统的潜力，认为传统优化和模块化的自动驾驶系统无法应对复杂情况，提出了理想的自动驾驶系统应具备的推理、解释和记忆三个关键能力，并通过实验证明 LLM 在自动驾驶中具有卓越的推理能力为人类化自动驾驶的发展提供了有价值的思路。

Jul, 2023

持续学习、适应和改进：一种自动驾驶的双处理方法

LeapAD 是一种受人类认知过程启发的自动驾驶新范式，通过模拟人类注意力和创新的双过程决策模块，实现选择驾驶决策相关的关键对象、简化环境解释并缓解决策复杂性。闭环测试发现 LeapAD 在 CARLA 上表现优于仅依赖摄像机输入的方法，仅需要 1-2 个数量级较少的标记数据，实验还表明，随着记忆库的扩大，只有 1.8B 参数的启发式过程可以继承 GPT-4 驱动的分析过程的知识并实现持续性能提升。

May, 2024

GAD - 基于生成学习的高清地图无驾驶

提出一种基于深度学习的方法，将预测、决策和规划模块融合起来，以克服自动驾驶系统中基于规则的方法在真实世界应用中的不足，特别是在城市场景中。所提出的 DNN 模型仅经过 10 小时的人工驾驶数据训练，并且支持市场上所有的批量生产 ADAS 功能。在此论文中，展示了该方法在不对车辆的传感器设置和计算平台进行任何修改的情况下，通过部署到集约的测试车辆上，展示了其可行性、可用性和商业潜力。

May, 2024