RenderWorld：自监督3D标签的世界模型

Sep, 2024

RenderWorld：自监督3D标签的世界模型

RenderWorld: World Model with Self-Supervised 3D Label

Ziyang Yan, Wenzhen Dong, Yihua Shao, Yuhang Lu, Liu Haiyang...

TL;DR本文针对视觉驱动的端到端自动驾驶系统中存在的成本和可靠性问题，提出了一种新颖的RenderWorld框架，通过自监督的高斯基础Img2Occ模块生成3D占用标签，并采用AM-VAE进行编码。研究发现，RenderWorld在4D占用预测和运动规划方面实现了最先进的性能，显著提高了分割精度并减少了GPU内存消耗。

Abstract

End-to-end autonomous driving with vision-only is not only more cost-effective compared to LiDAR-vision fusion but also more reliable than traditional methods. To achieve a economical and robust purely visual autonomous

发现论文，激发创造

自监督占据预测中的可区分光线投射

本文提出使用几何占据图替代以视角为中心的预测模型作为自主驾驶场景中的内部表示，通过不同iable raycasting预测车辆周围环境的运动，有效减少与物体的碰撞

Oct, 2022

Occ3D：面向自动驾驶的大规模三维占据预测基准

本研究提出了一种新的3D占据预测任务，旨在从多视图图像中估计对象的详细占据和语义信息，并介绍了Coarse-to-Fine Occupancy(CTF-Occ)网络模型，该模型在3D占据预测任务中表现出优越的性能。

Apr, 2023

UniWorld：基于世界模型的自主驾驶预训练

该研究论文利用Alberto Elfes在1989年的先驱性工作中引入了占据栅格的概念，并为机器人赋予了一种空间-时间世界模型（UniWorld），从而感知其环境并预测其他参与者的未来行为。UniWorld能够估计世界状态中缺失的信息，并预测世界的合理未来状态，该统一预训练框架在运动预测、多相机三维物体检测和周围场景语义完成等关键任务中展现了有希望的结果，对于实现真实世界的自动驾驶具有重要实用价值。

Aug, 2023

RenderOcc: 基于图像渲染监督的视觉中心化3D占据预测

利用2D标签训练多视图3D占有模型，降低对昂贵的3D占有注释的依赖，并在实际应用中取得与使用3D标签全面监督的模型相当的性能。

Sep, 2023

SelfOcc: 自监督视觉3D占据预测

本文提出了一种自监督学习方法SelfOcc，使用视频序列仅学习3D占用情况，通过将图像转换为3D空间来得到3D场景表示，并利用自监督信号优化这些表示。SelfOcc在SemanticKITTI和Occ3D上使用单帧输入相比之前最佳方法SceneRF提高58.7％，并且是首个在Occ3D上为周围摄像头产生合理的3D占用情况的自监督工作。SelfOcc在SemanticKITTI、KITTI-2015和nuScenes上达到了最先进的结果，分别在新颖深度合成、单目深度估计和环视深度估计方面实现了高质量的深度。

Nov, 2023

自主驾驶的三维占据世界模型学习

理解3D场景的演变对于自动驾驶决策至关重要。本文通过在3D占据空间中学习OccWorld世界模型，同时预测自车运动和周围场景的演变，提出了一种新的框架。实验证明了OccWorld在无需使用实例和地图监督的情况下具有有效建模驾驶场景演变的能力。

Nov, 2023

Cam4DOcc：自动驾驶应用中基于摄像头的4D空间占用预测的基准测试

为了实现自动驾驶应用中的安全可靠的下游任务执行，我们提出了Cam4DOcc，一个基于仅相机图像的4D占据预测的基准。通过评估近期未来的周围场景变化，我们将基准建立在多个公开可得的数据集之上，并提供多样的基于相机的感知与预测实现方案，以及评估协议，用于在自动驾驶场景中与感兴趣对象相关的现在和未来占据估计的性能比较。

Nov, 2023

DriveWorld：4D 预训练场景理解通过World模型用于自动驾驶

通过 DriveWorld 框架，从多摄像头自驾车视频中进行时空预训练，有效提高了各种自主驾驶任务的性能。

May, 2024

UnO: 无监督占用场景的感知和预测

我们提出了一种使用自监督从LiDAR数据学习连续的4D（时空）占据场的无监督世界模型，该模型可以轻松有效地迁移到下游任务，并在点云预测和BEV语义占据预测方面取得了最先进的性能，特别是在标注数据稀缺时。此外，在与先前的时空几何占据预测的最新技术进行比较时，我们的4D世界模型对于与自动驾驶相关的类别的对象的召回率要高得多。

Jun, 2024

在占用世界中驾驶：基于视觉的4D占用预测与自主驾驶的世界模型规划

本研究解决了现有世界模型在数据生成和预训练方面的局限，提出了Drive-OccWorld模型，实现视觉中心的4D占用预测与自主驾驶的端到端规划。通过引入语义和运动条件的标准化，使模型能够考虑几何和时空建模，有效生成占用预测，为自主驾驶的未来状态预测和最优轨迹选择提供了新的可能性。

Aug, 2024