OccGen：用于自动驾驶的生成式多模态三维占据预测

Apr, 2024

OccGen：用于自动驾驶的生成式多模态三维占据预测

OccGen: Generative Multi-modal 3D Occupancy Prediction for Autonomous Driving

Guoqing Wang, Zhongdao Wang, Pin Tang, Jilai Zheng, Xiangxuan Ren...

TL;DROccGen 是一种简单但强大的生成感知模型，通过预测和消除随机高斯分布产生的噪音，逐步推断并优化占用图像。

Abstract

Existing solutions for 3d semantic occupancy prediction typically treat the task as a one-shot 3D voxel-wise segmentation perception problem. These discriminative methods focus on learning the mapping between the inputs and occupancy map in a single step, lacking the ability to gradual

3d semantic occupancy prediction occgen generative perception model progressive refinement decoder diffusion denoising

发现论文，激发创造

场景作为占用

通过提出一种新的 3D Occupancy 表示法 (OccNet)，并在 nuScenes 数据集上建立了 OpenOcc，我们方法能够有效地为多个驾驶任务提供有力的支持，并取得了显著的性能收益，例如运动规划可以实现 15％-58％的碰撞率降低。

Jun, 2023

UniOcc: 基于几何和语义渲染的视觉中心化三维占据预测统一

本技术报告介绍了 UniOCC 解决方案，它采用空间几何约束和体积光线渲染来提高 3D 占用预测性能，从而在 CVPR2023 的 nuScenes Open Dataset Challenge 中获得了 51.27％的 mIoU，在 3D 占用注释成本方面具有很大的潜力。

Jun, 2023

GEOcc：几何增强的三维占据网络与隐式 - 显式深度融合和上下文自监督

本文提出了 GEOcc，一种适用于仅使用视觉的全景视图感知的几何增强占用网络，它通过将环视图图像转换为密集的三维网格内的集成几何和语义表示来实现对三维占用的感知，解决了目前模型面临的两个主要挑战：在二维至三维视图变换阶段准确建模深度，以及由于稀疏的 LiDAR 监督引起的泛化问题的缺乏。

May, 2024

Co-Occ: 融合显式特征融合和体渲染正则化的多模态三维语义占据预测

该研究论文提出了一种名为 Co-Occ 的新型多模态 LiDAR - 相机三维语义占据预测框架，通过显式 LiDAR - 相机特征融合和隐式体素渲染正则化，有效地处理了多模态语义占据预测中不同模态数据的异构性、错配性和互作不足问题，从而提高了三维语义占据预测的质量。

Apr, 2024

Occ3D：面向自动驾驶的大规模三维占据预测基准

本研究提出了一种新的 3D 占据预测任务，旨在从多视图图像中估计对象的详细占据和语义信息，并介绍了 Coarse-to-Fine Occupancy (CTF-Occ) 网络模型，该模型在 3D 占据预测任务中表现出优越的性能。

Apr, 2023

OVO: 开放词汇占用

本文提出了 Open Vocabulary Occupancy (OVO) 算法，通过知识蒸馏和像素 - 体素筛选两个关键步骤，可以对任意类别进行语义占据的预测，同时适用于大多数最先进的语义占据预测模型。在 NYUv2 和 SemanticKITTI 数据集上，OVO 与有监督的方法相比具有竞争性的性能。

May, 2023

OctreeOcc: 高效的多粒度 Octree 查询方法进行占据预测

OctreeOcc 是一种创新的 3D 占用预测框架，通过利用八叉树表示来自适应地捕捉 3D 中的有价值信息，以适应不同尺寸和复杂度的对象形状和语义区域。通过改善初始八叉树结构的准确性和设计有效的矫正机制来优化八叉树结构。在广泛的评估中，OctreeOcc 不仅在占用预测方面超越了最先进的方法，而且与基于密集网格的方法相比，还减少了 15%-24% 的计算开销。

Dec, 2023

PanoOcc：面向基于相机的三维全景分割的统一占据表示

本文介绍了一种名为 PanoOcc 的方法，它是一个基于相机的 3D 全景分割方法，它使用体素查询来聚合来自多帧和多视角图像的时空信息，并将特征学习和场景表示集成到一种全面的占用表示中，用于摄像机 3D 场景理解的统一占用表示，从而实现了更好的摄像机语义分割和全景分割结果，并且该方法可以很容易地扩展到密集的占用预测。

Jun, 2023

OccFusion: 无深度估计的多传感器融合用于 3D 占据预测

基于多传感器融合的 3D 占用预测方法 OccFusion，使用无需深度估计的多模态融合以及相应的点云采样算法，通过主动训练方法和主动粗到细流程，提高了复杂场景中预测的准确性和鲁棒性，有效优化了计算资源需求。在开放占用评测中，该方法超过了现有基于多模态的最先进方法，并且训练和推理阶段更加高效。细致的消融研究证明了我们提出的技术的有效性。

Mar, 2024

自主驾驶的三维占据世界模型学习

理解 3D 场景的演变对于自动驾驶决策至关重要。本文通过在 3D 占据空间中学习 OccWorld 世界模型，同时预测自车运动和周围场景的演变，提出了一种新的框架。实验证明了 OccWorld 在无需使用实例和地图监督的情况下具有有效建模驾驶场景演变的能力。

Nov, 2023