COTR: 基于视觉的紧凑式占据 Transformer 用于 3D 占据预测

Dec, 2023

COTR: 基于视觉的紧凑式占据 Transformer 用于 3D 占据预测

COTR: Compact Occupancy TRansformer for Vision-based 3D Occupancy Prediction

Qihang Ma, Xin Tan, Yanyun Qu, Lizhuang Ma, Zhizhong Zhang...

TL;DR自主驾驶中感兴趣的 3D 占据预测，通过其出色的几何认知和一般物体识别能力来推动。为了实现这一点，当前的工作试图构建从鸟瞰图感知扩展的三透视视图（TPV）或占据（OCC）表示。然而，像 TPV 表示这样的压缩视图会丢失 3D 几何信息，而原始和稀疏的 OCC 表示则需要大量但冗余的计算成本。为了解决上述限制，我们提出了一种紧凑的占据转换器（COTR），它具有一个具有几何意识的占据编码器和一个语义意识的组解码器来重建紧凑的 3D OCC 表示。经验性实验表明，在多个基线上有明显的性能提升，例如，COTR 相对改进 8%-15%，证明了我们方法的优越性。

Abstract

The autonomous driving community has shown significant interest in 3D occupancy prediction, driven by its exceptional geometric perception and general object recognition capabilities. To achieve this, current wor

autonomous driving 3d occupancy prediction geometry perception object recognition compact occupancy transformer (cotr)

发现论文，激发创造

场景作为占用

通过提出一种新的 3D Occupancy 表示法 (OccNet)，并在 nuScenes 数据集上建立了 OpenOcc，我们方法能够有效地为多个驾驶任务提供有力的支持，并取得了显著的性能收益，例如运动规划可以实现 15％-58％的碰撞率降低。

Jun, 2023

SparseOcc（稀疏隐含表示）：重新考虑基于视觉的语义占用预测

提出了 SparseOcc，一种受稀疏点云处理启发的高效占据网络，利用了无损稀疏潜在表示的三个关键创新。通过空间分解的 3D 稀疏卷积核执行潜在补全的 3D 稀疏扩散器；通过特征金字塔和稀疏插值从其他尺度获取信息；将 Transformer 头改造为稀疏变种。SparseOcc 在 FLOP 上实现了惊人的 74.9% 减少，同时在精确度上有所提高。

Apr, 2024

占用 DETR: 让语义场景补全像目标检测一样简单

我们提出了一种新的 3D 语义占有率感知方法 OccupancyDETR，它包括一个类 DETR 的目标检测模块和一个 3D 占有率解码器模块，通过集成目标检测简化了我们的方法结构，提高了速度和性能，在 SemanticKITTI 数据集上展示了在实时 3D 语义场景完成方面的有效性。

Sep, 2023

基于视觉的三视角视图的 3D 语义占用预测

采用鸟瞰图（BEV）描述自动驾驶中的三维场景难以描绘细粒度的三维结构，因此我们提出了三面图（TPV）表示法，并使用基于注意力机制的 TPV 编码器实现了显著的提升。模型可以通过稀疏监督有效预测语义占用，仅使用相机输入在 LiDAR 分割任务上可实现与基于 LiDAR 的方法相当的性能。

Feb, 2023

FastOcc: 通过融合二维俯视图和透视视图加速三维占据预测

在自动驾驶中，通过分析网络效应和延迟，本文提出了一种名为 FastOcc 的新方法，通过用轻量级的 2D BEV 卷积网络代替时间消耗较大的 3D 卷积网络，加快模型的推理速度，同时保持准确性，从而实现了优越的性能。

Mar, 2024

GEOcc：几何增强的三维占据网络与隐式 - 显式深度融合和上下文自监督

本文提出了 GEOcc，一种适用于仅使用视觉的全景视图感知的几何增强占用网络，它通过将环视图图像转换为密集的三维网格内的集成几何和语义表示来实现对三维占用的感知，解决了目前模型面临的两个主要挑战：在二维至三维视图变换阶段准确建模深度，以及由于稀疏的 LiDAR 监督引起的泛化问题的缺乏。

May, 2024

S2TPVFormer：时空三视角视图用于具有时间一致性的 3D 语义占据预测

本研究针对自主驾驶系统中对三维场景的整体理解和推理的重要性展开研究，将三维语义占据预测作为自主驾驶和机器人下游任务的预训练任务，与三维检测等方法相比，它更准确地捕捉了三维细节。现有方法主要关注空间线索，而忽视了时间线索。基于查询的方法常常使用计算密集的体素表示对三维场景信息进行编码。本研究介绍了 S2TPVFormer，它是 TPVFormer 的扩展，利用时空变换器结构进行一致的三维语义占据预测。强调了时空线索在三维场景感知中的重要性，特别是在三维语义占据预测中，我们的工作探索了较少研究的时间线索领域。通过利用三视角视图（Tri-Perspective View，简称 TPV）表示，我们的时空编码器生成具有时间上下文的嵌入，提高了预测的一致性，同时保持了计算效率。为了实现这一点，我们提出了一种新颖的时空跨视图混合注意机制（Temporal Cross-View Hybrid Attention，简称 TCVHA），促进了 TPV 视图之间的有效时空信息交流。对 nuScenes 数据集的实验评估表明，与 TPVFormer 相比，提出的 S2TPVFormer 在三维语义占据上取得了 3.1% 的平均交集联合（mIoU）改进，验证了其提高三维场景感知效果的有效性。

Jan, 2024

Occ3D：面向自动驾驶的大规模三维占据预测基准

本研究提出了一种新的 3D 占据预测任务，旨在从多视图图像中估计对象的详细占据和语义信息，并介绍了 Coarse-to-Fine Occupancy (CTF-Occ) 网络模型，该模型在 3D 占据预测任务中表现出优越的性能。

Apr, 2023

OcTr：基于八叉树 Transformer 的 3D 物体检测

本文介绍了一种名为 OcTr 的基于八叉树的 Transformer 方法，通过动态构建八叉树从而实现对远距离或 / 和遮挡物体的有效检测，进一步提出了一种混合位置编码方法以增强前景感知，实验表明 OcTr 方法在 Waymo 开放数据集和 KITTI 数据集上均取得了最新的最佳结果。

Mar, 2023

PointOcc：基于点的三透视图用于点云三维语义占据预测

自动驾驶中的语义分割已由稀疏点分割演变为密集体素分割，我们提出了圆柱三视角视图和 PointOcc 模型来代表点云并高效处理，实验结果表明 PointOcc 在速度方面比其他方法更快且性能更好。

Aug, 2023