自主驾驶的三维占据世界模型学习
理解 3D 场景的演变对于有效的自动驾驶至关重要。我们提出了一种基于扩散的 4D 占据生成模型 OccSora,以模拟自动驾驶中三维世界的发展。通过在空时表示中学习扩散变换器,我们可以在轨迹提示的条件下生成 4D 占据,展示了对驾驶场景的空间和时间分布的理解能力。具有轨迹感知的 4D 生成,OccSora 具有作为自动驾驶决策的世界模拟器的潜力。
May, 2024
本研究提出了一种新的 3D 占据预测任务,旨在从多视图图像中估计对象的详细占据和语义信息,并介绍了 Coarse-to-Fine Occupancy (CTF-Occ) 网络模型,该模型在 3D 占据预测任务中表现出优越的性能。
Apr, 2023
通过提出一种新的 3D Occupancy 表示法 (OccNet),并在 nuScenes 数据集上建立了 OpenOcc,我们方法能够有效地为多个驾驶任务提供有力的支持,并取得了显著的性能收益,例如运动规划可以实现 15%-58%的碰撞率降低。
Jun, 2023
该研究论文利用 Alberto Elfes 在 1989 年的先驱性工作中引入了占据栅格的概念,并为机器人赋予了一种空间 - 时间世界模型(UniWorld),从而感知其环境并预测其他参与者的未来行为。UniWorld 能够估计世界状态中缺失的信息,并预测世界的合理未来状态,该统一预训练框架在运动预测、多相机三维物体检测和周围场景语义完成等关键任务中展现了有希望的结果,对于实现真实世界的自动驾驶具有重要实用价值。
Aug, 2023
我们提出了 OpenOcc,一种将 3D 场景重建和开放词汇理解与神经辐射场结合的新型框架。通过占位表示法对场景的几何结构进行建模,并通过体素渲染将预训练的开放词汇模型蒸馏为 3D 语言场,以实现零 - shot 推理。此外,我们提出了一种新颖的语义感知置信度传播(SCP)方法,以缓解由于蒸馏特征中不一致测量而引起的语言场表示退化问题。实验证明,我们的方法在 3D 场景理解任务中取得了有竞争力的性能,特别是对于小物体和长尾物体。
Mar, 2024
本文提出了一种自监督学习方法 SelfOcc,使用视频序列仅学习 3D 占用情况,通过将图像转换为 3D 空间来得到 3D 场景表示,并利用自监督信号优化这些表示。SelfOcc 在 SemanticKITTI 和 Occ3D 上使用单帧输入相比之前最佳方法 SceneRF 提高 58.7%,并且是首个在 Occ3D 上为周围摄像头产生合理的 3D 占用情况的自监督工作。SelfOcc 在 SemanticKITTI、KITTI-2015 和 nuScenes 上达到了最先进的结果,分别在新颖深度合成、单目深度估计和环视深度估计方面实现了高质量的深度。
Nov, 2023
通过 DriveWorld 框架,从多摄像头自驾车视频中进行时空预训练,有效提高了各种自主驾驶任务的性能。
May, 2024
本文介绍了一种名为 PanoOcc 的方法,它是一个基于相机的 3D 全景分割方法,它使用体素查询来聚合来自多帧和多视角图像的时空信息,并将特征学习和场景表示集成到一种全面的占用表示中,用于摄像机 3D 场景理解的统一占用表示,从而实现了更好的摄像机语义分割和全景分割结果,并且该方法可以很容易地扩展到密集的占用预测。
Jun, 2023
我们提出了一种使用自监督从 LiDAR 数据学习连续的 4D(时空)占据场的无监督世界模型,该模型可以轻松有效地迁移到下游任务,并在点云预测和 BEV 语义占据预测方面取得了最先进的性能,特别是在标注数据稀缺时。此外,在与先前的时空几何占据预测的最新技术进行比较时,我们的 4D 世界模型对于与自动驾驶相关的类别的对象的召回率要高得多。
Jun, 2024
本文提出了 GEOcc,一种适用于仅使用视觉的全景视图感知的几何增强占用网络,它通过将环视图图像转换为密集的三维网格内的集成几何和语义表示来实现对三维占用的感知,解决了目前模型面临的两个主要挑战:在二维至三维视图变换阶段准确建模深度,以及由于稀疏的 LiDAR 监督引起的泛化问题的缺乏。
May, 2024