OccFormer: 双路径 Transformer 用于基于视觉的 3D 语义占用预测

Apr, 2023

OccFormer: 双路径 Transformer 用于基于视觉的 3D 语义占用预测

OccFormer: Dual-path Transformer for Vision-based 3D Semantic Occupancy Prediction

Yunpeng Zhang, Zheng Zhu, Dalong Du

TL;DR本文介绍了 OccFormer，一种双路径 Transformer 网络，有效地处理了用于自主驾驶的 3D 立体体素特征，并在 SemanticKITTI 数据集上对语义完整性和 nuScenes 数据集上的 LiDAR 语义分割方面优于现有方法。

Abstract

The vision-based perception for autonomous driving has undergone a transformation from the bird-eye-view (BEV) representations to the 3D semantic occupancy. Compared with the BEV planes, the →

autonomous driving vision-based perception 3d semantic occupancy transformer network semantic occupancy prediction

发现论文，激发创造

OccTransformer：改进 BEVFormer 以用于 3D 仅相机空间占用预测

我们的研究论文提出了一种名为 “occTransformer” 的解决方案，用于 CVPR 2023 的自动驾驶挑战中的 3D 占据预测。该方法基于强大的基准模型 BEVFormer，并通过几种简单但有效的技术来提高其性能。

Feb, 2024

ViewFormer：基于视图引导的 Transformer 模型探索多视角 3D 占位感知的时空建模

基于 3D 占据率、多视图特征聚合和动态场景的研究，我们提出了 ViewFormer，一个基于 Transformer 的视觉中心框架，具有高度的可扩展性和优越性能。

May, 2024

VoxFormer：基于摄像机的稀疏体素变换器用于三维语义场景完成

本论文提出了一种基于 Transformer 的场景语义补全框架 VoxFormer，可以从 2D 图像中输出完整的 3D 体素语义，并在测试中获得了相对 20% 的几何和 18.1% 的语义方面的提升。

Feb, 2023

S2TPVFormer：时空三视角视图用于具有时间一致性的 3D 语义占据预测

本研究针对自主驾驶系统中对三维场景的整体理解和推理的重要性展开研究，将三维语义占据预测作为自主驾驶和机器人下游任务的预训练任务，与三维检测等方法相比，它更准确地捕捉了三维细节。现有方法主要关注空间线索，而忽视了时间线索。基于查询的方法常常使用计算密集的体素表示对三维场景信息进行编码。本研究介绍了 S2TPVFormer，它是 TPVFormer 的扩展，利用时空变换器结构进行一致的三维语义占据预测。强调了时空线索在三维场景感知中的重要性，特别是在三维语义占据预测中，我们的工作探索了较少研究的时间线索领域。通过利用三视角视图（Tri-Perspective View，简称 TPV）表示，我们的时空编码器生成具有时间上下文的嵌入，提高了预测的一致性，同时保持了计算效率。为了实现这一点，我们提出了一种新颖的时空跨视图混合注意机制（Temporal Cross-View Hybrid Attention，简称 TCVHA），促进了 TPV 视图之间的有效时空信息交流。对 nuScenes 数据集的实验评估表明，与 TPVFormer 相比，提出的 S2TPVFormer 在三维语义占据上取得了 3.1% 的平均交集联合（mIoU）改进，验证了其提高三维场景感知效果的有效性。

Jan, 2024

FastOcc: 通过融合二维俯视图和透视视图加速三维占据预测

在自动驾驶中，通过分析网络效应和延迟，本文提出了一种名为 FastOcc 的新方法，通过用轻量级的 2D BEV 卷积网络代替时间消耗较大的 3D 卷积网络，加快模型的推理速度，同时保持准确性，从而实现了优越的性能。

Mar, 2024

高斯形态学：基于视觉的 3D 语义占用预测中的场景高斯化

提出一种基于对象中心表示法的 3D 语义占位预测方法，通过稀疏 3D 语义高斯来描述场景，通过注意机制从图像中聚合信息并迭代细化 3D 高斯的属性，然后通过高斯到体素喷洒方法生成 3D 占位预测。

May, 2024

SparseOcc（稀疏隐含表示）：重新考虑基于视觉的语义占用预测

提出了 SparseOcc，一种受稀疏点云处理启发的高效占据网络，利用了无损稀疏潜在表示的三个关键创新。通过空间分解的 3D 稀疏卷积核执行潜在补全的 3D 稀疏扩散器；通过特征金字塔和稀疏插值从其他尺度获取信息；将 Transformer 头改造为稀疏变种。SparseOcc 在 FLOP 上实现了惊人的 74.9% 减少，同时在精确度上有所提高。

Apr, 2024

OneFormer3D：统一点云分割的一种 Transformer

本文提出了一种统一、简单、有效的模型 OneFormer3D，利用可学习的卷积核同时处理实例分割和语义分割，通过输入统一的实例和语义查询来训练，并在 ScanNet 测试排行榜中取得了第一名和新的最佳性能，同时在 ScanNet、ScanNet200 和 S3DIS 数据集上展示了最领先的语义、实例和全景分割结果。

Nov, 2023

WidthFormer: 高效基于 Transformer 的 BEV 视角转换

通过提出的 WidthFormer 模型，本研究将 Bird's-Eye-View（BEV）3D 检测方法应用于实时自动驾驶应用，其具有计算效率高、有效、无需特殊工程部署等特点，并通过引入 3D 位置编码机制实现了准确融合 3D 几何信息，从而实现生成高质量 BEV 表示的目标。

Jan, 2024

场景作为占用

通过提出一种新的 3D Occupancy 表示法 (OccNet)，并在 nuScenes 数据集上建立了 OpenOcc，我们方法能够有效地为多个驾驶任务提供有力的支持，并取得了显著的性能收益，例如运动规划可以实现 15％-58％的碰撞率降低。

Jun, 2023