基于前后向视点变换的三维占据预测

CVPRJul, 2023

基于前后向视点变换的三维占据预测

FB-OCC: 3D Occupancy Prediction based on Forward-Backward View Transformation

Zhiqi Li, Zhiding Yu, David Austin, Mingsheng Fang, Shiyi Lan...

TL;DR本文简述了在 3D 占用预测挑战中获胜的解决方案，该方案基于 FB-BEV，并在其基础上进一步研究了针对 3D 占用预测任务的新设计和优化。最终结果表明，该方案在 nuScenes 数据集上获得了最先进的 mIoU 得分，排名挑战榜的第一位。

Abstract

This technical report summarizes the winning solution for the 3D Occupancy Prediction Challenge, which is held in conjunction with the CVPR 2023 Workshop on End-to-End autonomous driving and CVPR 23 Workshop on Vision-Centric →

3d occupancy prediction autonomous driving computer vision fb-occ machine learning

发现论文，激发创造

FastOcc: 通过融合二维俯视图和透视视图加速三维占据预测

在自动驾驶中，通过分析网络效应和延迟，本文提出了一种名为 FastOcc 的新方法，通过用轻量级的 2D BEV 卷积网络代替时间消耗较大的 3D 卷积网络，加快模型的推理速度，同时保持准确性，从而实现了优越的性能。

Mar, 2024

AdaOcc：自适应前向视图变换与流模型用于 3D 占据与流预测

通过采用自适应前视转换和流建模的双阶段框架，我们提出了一种创新的方法，以增强 3D 占用和流的预测能力。我们首先独立训练占用模型，然后使用连续帧集成进行流预测。我们的方法将回归与分类相结合，以解决不同场景中的尺度变化，并利用预测的流将当前体素特征扭曲到未来帧，由未来帧的真值引导。在 nuScenes 数据集上的实验结果表明，我们的方法在准确性和鲁棒性方面取得了显著的改进，展示了我们方法在真实环境下的有效性。基于 Swin-Base 的单一模型在公共排行榜上排名第二，验证了我们方法在推进自动驾驶车辆感知系统方面的潜力。

Jul, 2024

SelfOcc: 自监督视觉 3D 占据预测

本文提出了一种自监督学习方法 SelfOcc，使用视频序列仅学习 3D 占用情况，通过将图像转换为 3D 空间来得到 3D 场景表示，并利用自监督信号优化这些表示。SelfOcc 在 SemanticKITTI 和 Occ3D 上使用单帧输入相比之前最佳方法 SceneRF 提高 58.7％，并且是首个在 Occ3D 上为周围摄像头产生合理的 3D 占用情况的自监督工作。SelfOcc 在 SemanticKITTI、KITTI-2015 和 nuScenes 上达到了最先进的结果，分别在新颖深度合成、单目深度估计和环视深度估计方面实现了高质量的深度。

Nov, 2023

Occ3D：面向自动驾驶的大规模三维占据预测基准

本研究提出了一种新的 3D 占据预测任务，旨在从多视图图像中估计对象的详细占据和语义信息，并介绍了 Coarse-to-Fine Occupancy (CTF-Occ) 网络模型，该模型在 3D 占据预测任务中表现出优越的性能。

Apr, 2023

自主驾驶中基于视觉的三维占用预测：综述与展望

自动驾驶领域的一项新兴感知任务是基于视觉的 3D 占用状态预测，该论文对其背景、挑战、研究进展和未来展望进行了综述，并提供了与该主题相关的论文、数据集和代码的收集。

May, 2024

Occ-BEV: 通过三维场景重建实现多摄像机联合预训练

通过设计 3D 解码器来利用多视图图像的鸟瞰图（BEV）特征预测 3D 场景的占位情况，为多摄像头智能驾驶提供了一种先进的、可行的和经济高效的解决方案，并取得了显着提升的结果。

May, 2023

UniOcc: 基于几何和语义渲染的视觉中心化三维占据预测统一

本技术报告介绍了 UniOCC 解决方案，它采用空间几何约束和体积光线渲染来提高 3D 占用预测性能，从而在 CVPR2023 的 nuScenes Open Dataset Challenge 中获得了 51.27％的 mIoU，在 3D 占用注释成本方面具有很大的潜力。

Jun, 2023

GEOcc：几何增强的三维占据网络与隐式 - 显式深度融合和上下文自监督

本文提出了 GEOcc，一种适用于仅使用视觉的全景视图感知的几何增强占用网络，它通过将环视图图像转换为密集的三维网格内的集成几何和语义表示来实现对三维占用的感知，解决了目前模型面临的两个主要挑战：在二维至三维视图变换阶段准确建模深度，以及由于稀疏的 LiDAR 监督引起的泛化问题的缺乏。

May, 2024

OccTransformer：改进 BEVFormer 以用于 3D 仅相机空间占用预测

我们的研究论文提出了一种名为 “occTransformer” 的解决方案，用于 CVPR 2023 的自动驾驶挑战中的 3D 占据预测。该方法基于强大的基准模型 BEVFormer，并通过几种简单但有效的技术来提高其性能。

Feb, 2024

场景作为占用

通过提出一种新的 3D Occupancy 表示法 (OccNet)，并在 nuScenes 数据集上建立了 OpenOcc，我们方法能够有效地为多个驾驶任务提供有力的支持，并取得了显著的性能收益，例如运动规划可以实现 15％-58％的碰撞率降低。

Jun, 2023