RenderWorld:自监督3D标签的世界模型
本文提出使用几何占据图替代以视角为中心的预测模型作为自主驾驶场景中的内部表示,通过不同iable raycasting预测车辆周围环境的运动,有效减少与物体的碰撞
Oct, 2022
本研究提出了一种新的3D占据预测任务,旨在从多视图图像中估计对象的详细占据和语义信息,并介绍了Coarse-to-Fine Occupancy(CTF-Occ)网络模型,该模型在3D占据预测任务中表现出优越的性能。
Apr, 2023
该研究论文利用Alberto Elfes在1989年的先驱性工作中引入了占据栅格的概念,并为机器人赋予了一种空间-时间世界模型(UniWorld),从而感知其环境并预测其他参与者的未来行为。UniWorld能够估计世界状态中缺失的信息,并预测世界的合理未来状态,该统一预训练框架在运动预测、多相机三维物体检测和周围场景语义完成等关键任务中展现了有希望的结果,对于实现真实世界的自动驾驶具有重要实用价值。
Aug, 2023
利用2D标签训练多视图3D占有模型,降低对昂贵的3D占有注释的依赖,并在实际应用中取得与使用3D标签全面监督的模型相当的性能。
Sep, 2023
本文提出了一种自监督学习方法SelfOcc,使用视频序列仅学习3D占用情况,通过将图像转换为3D空间来得到3D场景表示,并利用自监督信号优化这些表示。SelfOcc在SemanticKITTI和Occ3D上使用单帧输入相比之前最佳方法SceneRF提高58.7%,并且是首个在Occ3D上为周围摄像头产生合理的3D占用情况的自监督工作。SelfOcc在SemanticKITTI、KITTI-2015和nuScenes上达到了最先进的结果,分别在新颖深度合成、单目深度估计和环视深度估计方面实现了高质量的深度。
Nov, 2023
理解3D场景的演变对于自动驾驶决策至关重要。本文通过在3D占据空间中学习OccWorld世界模型,同时预测自车运动和周围场景的演变,提出了一种新的框架。实验证明了OccWorld在无需使用实例和地图监督的情况下具有有效建模驾驶场景演变的能力。
Nov, 2023
为了实现自动驾驶应用中的安全可靠的下游任务执行,我们提出了Cam4DOcc,一个基于仅相机图像的4D占据预测的基准。通过评估近期未来的周围场景变化,我们将基准建立在多个公开可得的数据集之上,并提供多样的基于相机的感知与预测实现方案,以及评估协议,用于在自动驾驶场景中与感兴趣对象相关的现在和未来占据估计的性能比较。
Nov, 2023
我们提出了一种使用自监督从LiDAR数据学习连续的4D(时空)占据场的无监督世界模型,该模型可以轻松有效地迁移到下游任务,并在点云预测和BEV语义占据预测方面取得了最先进的性能,特别是在标注数据稀缺时。此外,在与先前的时空几何占据预测的最新技术进行比较时,我们的4D世界模型对于与自动驾驶相关的类别的对象的召回率要高得多。
Jun, 2024
本研究解决了现有世界模型在数据生成和预训练方面的局限,提出了Drive-OccWorld模型,实现视觉中心的4D占用预测与自主驾驶的端到端规划。通过引入语义和运动条件的标准化,使模型能够考虑几何和时空建模,有效生成占用预测,为自主驾驶的未来状态预测和最优轨迹选择提供了新的可能性。
Aug, 2024