3D-Token 化的 LLM 是否是可靠自动驾驶的关键?
提出了一种名为 TOKEN 的多模态大语言模型(MM-LLM),通过在长尾场景中对传统的端到端驾驶模型进行优化,将世界分解为物体级知识的令牌化,有效缓解了数据稀缺和低效的标记问题,并实现了在基于常识的推理能力上的优越表现。
Jul, 2024
利用大型语言模型(LLMs)与强化学习相结合的混合端到端学习框架,通过基于多模态提示标记的基本驾驶模仿学习与 LLMs 的结合,来提高自动驾驶性能。
Apr, 2024
基于多模态大型语言模型(MLLMs)的进展引起了对基于 LLM 的自动驾驶代理的兴趣,以利用其强大的推理能力。然而,利用 MLLM 的强大推理能力来改进规划行为具有挑战性,因为规划需要超越 2D 推理的全面 3D 情境感知。为了解决这个挑战,我们的工作提出了一个全面框架,用于代理模型和 3D 驾驶任务之间的强力对齐。我们的框架以一个新颖的 3D MLLM 架构为起点,该架构使用稀疏查询将视觉表示提升和压缩为 3D,然后将其输入到 LLM 中。这种基于查询的表示使我们能够联合编码动态对象和静态地图元素(例如交通车道),为 3D 情境中的感知 - 行动对齐提供了一种简化的世界模型。我们进一步提出了 OmniDrive-nuScenes,一个新的视觉问答数据集,挑战模型在真实的 3D 情境中的全面视觉问答任务,包括场景描述、交通规则、3D 接地、反事实推理、决策制定和规划。广泛的研究结果显示了所提出的架构的有效性以及 VQA 任务对于复杂 3D 场景中的推理和规划的重要性。
May, 2024
我们的研究引入了一个新的安全框架,利用多智能体大语言模型(LLMs)来保护自动驾驶车辆的敏感信息,同时确保 LLM 的输出符合驾驶规定和符合人类价值观。我们使用该框架评估了 11 个大语言模型驱动的自动驾驶提示的安全性、隐私性和成本方面,并对这些驾驶提示进行了问答测试,成功地证明了该框架的有效性。
Jun, 2024
DriveVLM 是一种利用 Vision-Language Models(VLMs)进行场景理解和规划的自动驾驶系统,通过一系列思维链模块实现场景描述、分析和层次规划,并提出了 DriveVLM-Dual 作为一种混合系统以解决 VLMs 在空间推理和计算需求上的限制,实现了稳健的空间理解和实时推理速度,通过对 nuScenes 数据集和 SUP-AD 数据集的广泛实验,证明了 DriveVLM 和 DriveVLM-Dual 在复杂和不可预测的驾驶条件下的有效性和增强性能。
Feb, 2024
通过扩展多模态大语言模型 (MLLMs) 的感知能力以在三维空间中对图像进行定位和推理,本研究引入了一个名为 Cube-LLM 的新 MLLM,并在 LV3D 数据集上进行预训练,实验表明 Cube-LLM 在整体 MLLM 和特定领域的基准测试中均表现出色,并取得了显著的成果。
May, 2024
利用大型语言模型(LLM)在自动驾驶中的相关能力进行定量研究,评估了 LLM 在空间识别、空间感知决策和遵守交通规则方面的准确性,并开发了一个使用 LLM 驾驶车辆的系统来验证其可行性。
Dec, 2023
我们提出了一种新的 3D-LLMs,将 3D 世界引入大型语言模型,并利用 3D point clouds 进行各种 3D 相关任务,通过我们设计的提示机制收集了超过 300k 的 3D 语言数据,实验证明我们的模型在 ScanQA 上的表现超过了最先进的基准方法,并在 3D 字幕、任务组合和 3D 辅助对话方面优于 2D VLMs。
Jul, 2023
自动驾驶技术是改变交通运输和城市流动性的催化剂,从基于规则的系统过渡到基于数据驱动的策略。该研究论文系统地回顾了大型语言模型在自动驾驶领域的应用,并评估了当前技术进展、主要挑战和未来方向。
Nov, 2023
通过利用大型语言模型(LLMs)的语言和推理能力,本研究提出了一个新的框架来增强自动驾驶车辆决策过程。通过在不同场景中进行试验和实时个性化示范,我们展示了利用 LLMs 能够改善驾驶决策、提供个性化驾驶体验并增强自动驾驶的安全和效果。
Oct, 2023