WcDT: 世界中心扩散变压器用于交通场景生成

Apr, 2024

WcDT: 世界中心扩散变压器用于交通场景生成

WcDT: World-centric Diffusion Transformer for Traffic Scene Generation

Chen Yang, Aaron Xuxiang Tian, Dong Chen, Tianyu Shi, Arsalan Heydarian

TL;DR我们介绍了一种新颖的自动驾驶轨迹生成方法，通过利用扩散概率模型（即扩散模型）和变形器的互补优势。我们提出的框架称为 “世界中心扩散变形器”（WcDT），它从特征提取到模型推断优化了整个轨迹生成过程。广泛的实验结果表明，该方法在生成逼真且多样化的轨迹方面表现出卓越性能，显示了它集成到自动驾驶模拟系统的潜力。

Abstract

In this paper, we introduce a novel approach for autonomous driving trajectory generation by harnessing the complementary strengths of diffusion probabilistic models (a.k.a., →

autonomous driving trajectory generation diffusion models transformers simulation systems

发现论文，激发创造

基于扩散的运动行为预测的可控多样性采样

自动驾驶任务中，在复杂交通环境中进行轨迹预测需要遵循现实世界的环境条件和行为多模态。我们介绍了一种名为 Controllable Diffusion Trajectory (CDT) 的新型轨迹生成器，它将地图信息和社交交互融入到基于 Transformer 的条件去噪扩散模型中，以指导未来轨迹的预测。通过引入行为标记，如直行、向右转或向左转，确保轨迹呈现多模态，并且使用预测的终点作为替代行为标记，以促进准确轨迹的预测。在 Argoverse 2 基准测试中的大量实验表明，CDT 在复杂城市环境中生成多样且符合场景要求的轨迹。

Feb, 2024

扩散模型生成逼真的视频

通过扩散建模，我们提出了一种基于转换器的 W.A.L.T 方法，用于逼真视频生成。我们采用了两个关键设计决策：一是使用因果编码器在统一的潜在空间中联合压缩图像和视频，实现跨模态的训练和生成；二是为了记忆和训练效率，我们使用了一个针对联合空间和时空生成建模的窗口注意力架构。这些设计决策使我们能够在已知的视频 (UCF-101 和 Kinetics-600) 和图像 (ImageNet) 生成基准上达到最先进的性能，而不使用分类器引导。最后，我们还训练了三个模型的串联，用于文本到视频生成任务，包括基本的潜在视频扩散模型和两个视频超分辨率扩散模型，以每秒 8 帧生成 512 x 896 分辨率的视频。

Dec, 2023

通过离散扩散学习自主驾驶的无监督世界模型

通过将传感器观测结果进行标记化并使用离散扩散方法预测未来情况，我们提出了一种新的世界建模方法，可以显著改进学习点云观测的世界模型，并在自动驾驶等机器人应用中实现了超过 65％的 Chamfer 距离缩减（1s 预测）和超过 50％的 Chamfer 距离缩减（3s 预测）。结果表明，对标记化的机器人经验进行离散扩散可以启用类似 GPT 的无监督学习方法，以提高机器人代理的性能。

Nov, 2023

基于扩散的环境感知轨迹预测

基于扩散的生成模型用于多智能体轨迹预测，具有学习数据多样性、提高预测准确性和应对不确定交通状况的实用性。

Mar, 2024

使用 Transformer 的视频传播经验研究

本研究介绍了 Video Diffusion Transformer（VDT），它首次在基于扩散的视频生成中提出了 Transformer 的使用，通过模块化的时间和空间注意机制实现了 Transformer 块，并能够通过简单的令牌空间串联实现灵活的条件信息，VDT 的模块化设计促进了一种时空解耦的训练策略，其在视频生成、预测和动力学建模（即基于物理的 QA）任务上，包括自动驾驶，人类行动和基于物理模拟等领域的应用，表现出了出色的性能。

May, 2023

DICE: 用于轨迹预测的多样化扩散模型与评分

在动态环境中，道路用户轨迹预测是一个具有挑战性但十分关键的任务，特别适用于自动驾驶等各种应用。本研究提出了一种新的框架，以计算高效的方式利用扩散模型来预测未来的轨迹。我们展示了该方法在常见的行人和自动驾驶基准数据集上取得了最先进的性能。

Oct, 2023

利用扩散生成驾驶场景

本文描述了一种基于学习的交通场景生成方法，旨在模拟自动驾驶汽车的感知系统输出。通过在传输中聚合物体检测，我们的 “场景扩散” 系统直接创建真实而物理上可行的代理离散边界框组合。我们展示了我们的场景生成模型能够适应美国不同地区，从而产生捕捉每个地区细节的场景。

May, 2023

SceneDM：具有一致性扩散模型的场景级多智能体轨迹生成

基于扩散模型的新框架 SceneDM 旨在生成场景中各类代理（车辆、自行车、行人等）的联合一致未来行动，并通过基于 Transformer 的网络处理代理之间的相互作用，设计了简单而有效的一致扩散方法以提高模型性能，并附加了场景级评分函数来评估生成代理行动的安全性和道路遵守性，帮助过滤出不切实际的模拟。该框架在 Waymo Sim Agents Benchmark 上取得了最先进的结果。

Nov, 2023

基于语言指导的场景级扩散交通模拟

提出了一种 CTG++ 基于学习的交通流模型，它可以通过语言指令进行指导，从而解决了交通模型控制需要领域专业知识，对实践者使用困难等问题，通过经过广泛的评估，我们展示了该方法在生成实际且符合查询要求的交通仿真方面的有效性。

Jun, 2023

HDGT: 基于场景编码的多智能体轨迹预测的异质驱动图变压器

针对自动驾驶中编码驾驶场景以进行轨迹预测的任务，本文提出了一种新颖的骨干网络，称为异构驾驶图变换器 (Heterogeneous Driving Graph Transformer, HDGT)，将驾驶场景建模为具有不同类型节点和边的异构图，并在图神经网络 (GNN) 的聚合模块中采用分层的变换器结构来适应输入的异构性，实验结果表明，该方法在 INTERACTION Prediction Challenge 和 Waymo Open Motion Challenge 中取得了新的最优结果。

Apr, 2022