自主驾驶的广义预测模型

CVPRMar, 2024

Generalized Predictive Model for Autonomous Driving

Jiazhi Yang, Shenyuan Gao, Yihang Qiu, Li Chen, Tianyu Li...

TL;DR本文介绍了自动驾驶学科中第一个大规模视频预测模型。通过从网络获取大量数据并与多样且高质量的文本描述配对，我们消除了高成本数据收集的限制并增强了模型的泛化能力。该数据集积累了超过 2000 小时的行驶视频，涵盖了全球各地不同的气候条件和交通场景。我们的模型名为 GenAD，并继承了最近潜变扩散模型的优点，利用新颖的时间推理块处理行驶场景中具有挑战性的动态。我们展示了它可以以零 - shot 方式泛化到各种未见过的行驶数据集，超过了一般或专门针对行车的视频预测模型。此外，GenAD 可以适应动作条件化预测模型或运动规划器，具有在实际行驶应用中巨大潜力。

Abstract

In this paper, we introduce the first large-scale video prediction model in the autonomous driving discipline. To eliminate the restriction of high-cost →

large-scale video prediction model autonomous driving data collection generalization ability temporal reasoning blocks

发现论文，激发创造

GenAD: 生成式端到端自动驾驶

提出了一个新的端到端自动驾驶范式，自动驾驶的关键在于预测自车和周围环境随着时间的演变，通过生成建模问题通过 GenAD 框架，模型了自动驾驶问题，并在广泛使用的 nuScenes 基准测试中取得了高效的最新成果。

Feb, 2024

GAD - 基于生成学习的高清地图无驾驶

提出一种基于深度学习的方法，将预测、决策和规划模块融合起来，以克服自动驾驶系统中基于规则的方法在真实世界应用中的不足，特别是在城市场景中。所提出的 DNN 模型仅经过 10 小时的人工驾驶数据训练，并且支持市场上所有的批量生产 ADAS 功能。在此论文中，展示了该方法在不对车辆的传感器设置和计算平台进行任何修改的情况下，通过部署到集约的测试车辆上，展示了其可行性、可用性和商业潜力。

May, 2024

通过可控的长视频生成释放自主驾驶的泛化能力

使用生成模型合成新数据已成为自动驾驶中解决数据稀缺问题的标准，然而现有方法在提高感知模型方面有效，但我们发现这些方法未能提高端到端自动驾驶模型的规划性能，原因在于生成的视频通常少于 8 帧且空间和时间不一致，为此我们提出了一种基于扩散的长视频生成方法 Delphi，通过跨多视角的共享噪声建模机制提高空间一致性，并引入特征对齐模块实现精确可控性和时间一致性，相比现有方法，我们的方法最多可生成 40 帧的视频而保持一致性，这是现有方法的 5 倍之多，进一步我们通过构建一个失败案例驱动框架，借助预训练视觉语言模型，设计了一种采样策略让 Delphi 生成类似于那些失败案例的新数据，提高了样本效率，广泛的实验证明我们的 Delphi 在驾驶规划中生成更高质量的长视频，首次超越现有最先进的方法，而且仅使用了训练数据集的 4％，我们的框架能够将自动驾驶模型的规划性能提升 25％。

Jun, 2024

面向分布感知的自主驾驶安全目标预测和符合模型规划

本文提出了一种基于模块化架构的学车任务分解方法，在障碍感知、目标预测和规划方面均取得了优秀的方法，并在 CARLA 模拟器上实现了最新的优秀结果。

Dec, 2022

ADriver-I: 无人驾驶的通用世界模型

基于多模态大语言模型和扩散技术，我们提出了一种自主驾驶世界模型 ADriver-I，该模型以交织的视觉 - 动作对为基础，能够预测当前帧的控制信号，并使用历史的视觉 - 动作对和生成的控制信号来预测未来的帧，通过无限反馈循环，ADriver-I 实现了自主驾驶。我们通过在 nuScenes 和大规模私有数据集上进行广泛实验，证明了 ADriver-I 在性能上的卓越表现，希望该模型能为未来自主驾驶和具身智能提供新的洞见。

Nov, 2023

自主驾驶碰撞风险评估的深度预测模型

本文研究了一种在自主驾驶和辅助驾驶中用于碰撞风险评估的预测方法，利用深度预测模型从传统视频流中预测即将到来的事故，并在决策制定过程中引入了时间信息、多模态信息以及任务固有的不确定性。通过使用基于贝叶斯卷积 LSTM 的深度预测模型，实验表明当多个摄像头作为输入源时，该方法能够较为准确地预测即将发生的事故。

Nov, 2017

从大规模视频数据集中端对端学习驾驶模型

利用大规模的众包视频数据，从中学习通用车辆运动模型，并开发了一种端到端可训练的架构，用于从瞬间单目摄像头观察和先前的车辆状态中学习预测未来车辆自我运动的分布。

Dec, 2016

基于目标及地图自适应的轨迹预测

通过使用环境中富含地图的车道中心线来提高多模态、长期车辆轨迹预测方法的准确性，实现了汽车行驶的目标方向建模，生成一组已提议的车辆目标路径，并将其用作空间锚点，进而预测基于目标的轨迹和对目标的分类分布，在 6 秒的预测角度内，在内部驾驶数据集和公共 nuScenes 数据集上实验结果表明，该模型的性能优于先进的车辆轨迹预测方法。

Sep, 2020

无限驾驶：具有多模态基础模型的通用端到端自动驾驶

通过使用多模态基础模型，我们提出了一种方法来增强自主驾驶系统的鲁棒性和适应性，实现了开放环境中的端到端多模态自主驾驶，并能从图像和文本的表示中提供驾驶决策。

Oct, 2023

基于变换的大规模数据对抗性视频预测

本文通过对辩别器分解的系统实证研究，提出了一种结构，使得其收敛速度和性能都优于之前的方法，并分析了生成器中的循环单元，提出了一种新的循环单元，可以根据预测的动态特征转换其过去的隐藏状态，包括处理去除、场景改变等复杂行为，最终的模型在大规模的 Kinetics-600 数据集上，获得了卓越的性能。

Mar, 2020