WcDT: 世界中心扩散变压器用于交通场景生成
自动驾驶任务中,在复杂交通环境中进行轨迹预测需要遵循现实世界的环境条件和行为多模态。我们介绍了一种名为 Controllable Diffusion Trajectory (CDT) 的新型轨迹生成器,它将地图信息和社交交互融入到基于 Transformer 的条件去噪扩散模型中,以指导未来轨迹的预测。通过引入行为标记,如直行、向右转或向左转,确保轨迹呈现多模态,并且使用预测的终点作为替代行为标记,以促进准确轨迹的预测。在 Argoverse 2 基准测试中的大量实验表明,CDT 在复杂城市环境中生成多样且符合场景要求的轨迹。
Feb, 2024
通过扩散建模,我们提出了一种基于转换器的 W.A.L.T 方法,用于逼真视频生成。我们采用了两个关键设计决策:一是使用因果编码器在统一的潜在空间中联合压缩图像和视频,实现跨模态的训练和生成;二是为了记忆和训练效率,我们使用了一个针对联合空间和时空生成建模的窗口注意力架构。这些设计决策使我们能够在已知的视频 (UCF-101 和 Kinetics-600) 和图像 (ImageNet) 生成基准上达到最先进的性能,而不使用分类器引导。最后,我们还训练了三个模型的串联,用于文本到视频生成任务,包括基本的潜在视频扩散模型和两个视频超分辨率扩散模型,以每秒 8 帧生成 512 x 896 分辨率的视频。
Dec, 2023
通过将传感器观测结果进行标记化并使用离散扩散方法预测未来情况,我们提出了一种新的世界建模方法,可以显著改进学习点云观测的世界模型,并在自动驾驶等机器人应用中实现了超过 65%的 Chamfer 距离缩减(1s 预测)和超过 50%的 Chamfer 距离缩减(3s 预测)。结果表明,对标记化的机器人经验进行离散扩散可以启用类似 GPT 的无监督学习方法,以提高机器人代理的性能。
Nov, 2023
本研究介绍了 Video Diffusion Transformer(VDT),它首次在基于扩散的视频生成中提出了 Transformer 的使用,通过模块化的时间和空间注意机制实现了 Transformer 块,并能够通过简单的令牌空间串联实现灵活的条件信息,VDT 的模块化设计促进了一种时空解耦的训练策略,其在视频生成、预测和动力学建模(即基于物理的 QA)任务上,包括自动驾驶,人类行动和基于物理模拟等领域的应用,表现出了出色的性能。
May, 2023
在动态环境中,道路用户轨迹预测是一个具有挑战性但十分关键的任务,特别适用于自动驾驶等各种应用。本研究提出了一种新的框架,以计算高效的方式利用扩散模型来预测未来的轨迹。我们展示了该方法在常见的行人和自动驾驶基准数据集上取得了最先进的性能。
Oct, 2023
本文描述了一种基于学习的交通场景生成方法,旨在模拟自动驾驶汽车的感知系统输出。通过在传输中聚合物体检测,我们的 “场景扩散” 系统直接创建真实而物理上可行的代理离散边界框组合。我们展示了我们的场景生成模型能够适应美国不同地区,从而产生捕捉每个地区细节的场景。
May, 2023
基于扩散模型的新框架 SceneDM 旨在生成场景中各类代理(车辆、自行车、行人等)的联合一致未来行动,并通过基于 Transformer 的网络处理代理之间的相互作用,设计了简单而有效的一致扩散方法以提高模型性能,并附加了场景级评分函数来评估生成代理行动的安全性和道路遵守性,帮助过滤出不切实际的模拟。该框架在 Waymo Sim Agents Benchmark 上取得了最先进的结果。
Nov, 2023
提出了一种 CTG++ 基于学习的交通流模型,它可以通过语言指令进行指导,从而解决了交通模型控制需要领域专业知识,对实践者使用困难等问题,通过经过广泛的评估,我们展示了该方法在生成实际且符合查询要求的交通仿真方面的有效性。
Jun, 2023
针对自动驾驶中编码驾驶场景以进行轨迹预测的任务,本文提出了一种新颖的骨干网络,称为异构驾驶图变换器 (Heterogeneous Driving Graph Transformer, HDGT),将驾驶场景建模为具有不同类型节点和边的异构图,并在图神经网络 (GNN) 的聚合模块中采用分层的变换器结构来适应输入的异构性,实验结果表明,该方法在 INTERACTION Prediction Challenge 和 Waymo Open Motion Challenge 中取得了新的最优结果。
Apr, 2022