GEOcc：几何增强的三维占据网络与隐式 - 显式深度融合和上下文自监督

May, 2024

GEOcc：几何增强的三维占据网络与隐式 - 显式深度融合和上下文自监督

GEOcc: Geometrically Enhanced 3D Occupancy Network with Implicit-Explicit Depth Fusion and Contextual Self-Supervision

Xin Tan, Wenbin Wu, Zhiwei Zhang, Chaojie Fan, Yong Peng...

TL;DR本文提出了 GEOcc，一种适用于仅使用视觉的全景视图感知的几何增强占用网络，它通过将环视图图像转换为密集的三维网格内的集成几何和语义表示来实现对三维占用的感知，解决了目前模型面临的两个主要挑战：在二维至三维视图变换阶段准确建模深度，以及由于稀疏的 LiDAR 监督引起的泛化问题的缺乏。

Abstract

3d occupancy perception holds a pivotal role in recent vision-centric autonomous driving systems by converting surround-view images into integrated geometric and semantic representations within dense 3d grids. Ne

3d occupancy perception vision-centric autonomous driving systems geocc dense 3d grids lidar supervision

发现论文，激发创造

场景作为占用

通过提出一种新的 3D Occupancy 表示法 (OccNet)，并在 nuScenes 数据集上建立了 OpenOcc，我们方法能够有效地为多个驾驶任务提供有力的支持，并取得了显著的性能收益，例如运动规划可以实现 15％-58％的碰撞率降低。

Jun, 2023

SelfOcc: 自监督视觉 3D 占据预测

本文提出了一种自监督学习方法 SelfOcc，使用视频序列仅学习 3D 占用情况，通过将图像转换为 3D 空间来得到 3D 场景表示，并利用自监督信号优化这些表示。SelfOcc 在 SemanticKITTI 和 Occ3D 上使用单帧输入相比之前最佳方法 SceneRF 提高 58.7％，并且是首个在 Occ3D 上为周围摄像头产生合理的 3D 占用情况的自监督工作。SelfOcc 在 SemanticKITTI、KITTI-2015 和 nuScenes 上达到了最先进的结果，分别在新颖深度合成、单目深度估计和环视深度估计方面实现了高质量的深度。

Nov, 2023

UniOcc: 基于几何和语义渲染的视觉中心化三维占据预测统一

本技术报告介绍了 UniOCC 解决方案，它采用空间几何约束和体积光线渲染来提高 3D 占用预测性能，从而在 CVPR2023 的 nuScenes Open Dataset Challenge 中获得了 51.27％的 mIoU，在 3D 占用注释成本方面具有很大的潜力。

Jun, 2023

Co-Occ: 融合显式特征融合和体渲染正则化的多模态三维语义占据预测

该研究论文提出了一种名为 Co-Occ 的新型多模态 LiDAR - 相机三维语义占据预测框架，通过显式 LiDAR - 相机特征融合和隐式体素渲染正则化，有效地处理了多模态语义占据预测中不同模态数据的异构性、错配性和互作不足问题，从而提高了三维语义占据预测的质量。

Apr, 2024

Occ3D：面向自动驾驶的大规模三维占据预测基准

本研究提出了一种新的 3D 占据预测任务，旨在从多视图图像中估计对象的详细占据和语义信息，并介绍了 Coarse-to-Fine Occupancy (CTF-Occ) 网络模型，该模型在 3D 占据预测任务中表现出优越的性能。

Apr, 2023

使用内存高效稀疏卷积的自动驾驶实时三维语义占位预测

自动驾驶车辆中，实时理解自身车辆周围的三维环境至关重要。本文介绍一种从前视二维相机图像和 LiDAR 扫描中提取特征并使用稀疏卷积网络（Minkowski Engine）进行三维语义占用预测的方法，以解决实时应用中的高计算需求和稀疏场景完整性的问题。

Mar, 2024

FastOcc: 通过融合二维俯视图和透视视图加速三维占据预测

在自动驾驶中，通过分析网络效应和延迟，本文提出了一种名为 FastOcc 的新方法，通过用轻量级的 2D BEV 卷积网络代替时间消耗较大的 3D 卷积网络，加快模型的推理速度，同时保持准确性，从而实现了优越的性能。

Mar, 2024

卷积占据网络

本文提出基于卷积的代表性网络 Convolutional Occupancy Networks 用于 3D 重建，实现了在较为复杂的几何情况下的结构化推理及其他先验偏差的融合，通过从噪声点云等数据中重建复杂几何模型且适用于大尺度室内场景。

Mar, 2020

EFFOcc: 融合效率的三维占据网络的最小基线

提出了一种高效的三维占据网络 (EFFOcc)，通过使用简单的 2D 算子和两阶段主动学习策略，最小化网络复杂性和标注要求，实现了业界领先的准确性，并支持改进的视觉占据预测。

Jun, 2024

PanoOcc：面向基于相机的三维全景分割的统一占据表示

本文介绍了一种名为 PanoOcc 的方法，它是一个基于相机的 3D 全景分割方法，它使用体素查询来聚合来自多帧和多视角图像的时空信息，并将特征学习和场景表示集成到一种全面的占用表示中，用于摄像机 3D 场景理解的统一占用表示，从而实现了更好的摄像机语义分割和全景分割结果，并且该方法可以很容易地扩展到密集的占用预测。

Jun, 2023