基于视觉的三视角视图的 3D 语义占用预测

Feb, 2023

基于视觉的三视角视图的 3D 语义占用预测

Tri-Perspective View for Vision-Based 3D Semantic Occupancy Prediction

Yuanhui Huang, Wenzhao Zheng, Yunpeng Zhang, Jie Zhou, Jiwen Lu

TL;DR采用鸟瞰图（BEV）描述自动驾驶中的三维场景难以描绘细粒度的三维结构，因此我们提出了三面图（TPV）表示法，并使用基于注意力机制的 TPV 编码器实现了显著的提升。模型可以通过稀疏监督有效预测语义占用，仅使用相机输入在 LiDAR 分割任务上可实现与基于 LiDAR 的方法相当的性能。

Abstract

Modern methods for vision-centric autonomous driving perception widely adopt the bird's-eye-view (BEV) representation to describe a 3D scene. Despite its better efficiency than voxel representation, it has difficulty describing the fine-grained 3D structure of a scene with a single pla

autonomous driving vision perception 3d scene representation tri-perspective view attention mechanism

发现论文，激发创造

S2TPVFormer：时空三视角视图用于具有时间一致性的 3D 语义占据预测

本研究针对自主驾驶系统中对三维场景的整体理解和推理的重要性展开研究，将三维语义占据预测作为自主驾驶和机器人下游任务的预训练任务，与三维检测等方法相比，它更准确地捕捉了三维细节。现有方法主要关注空间线索，而忽视了时间线索。基于查询的方法常常使用计算密集的体素表示对三维场景信息进行编码。本研究介绍了 S2TPVFormer，它是 TPVFormer 的扩展，利用时空变换器结构进行一致的三维语义占据预测。强调了时空线索在三维场景感知中的重要性，特别是在三维语义占据预测中，我们的工作探索了较少研究的时间线索领域。通过利用三视角视图（Tri-Perspective View，简称 TPV）表示，我们的时空编码器生成具有时间上下文的嵌入，提高了预测的一致性，同时保持了计算效率。为了实现这一点，我们提出了一种新颖的时空跨视图混合注意机制（Temporal Cross-View Hybrid Attention，简称 TCVHA），促进了 TPV 视图之间的有效时空信息交流。对 nuScenes 数据集的实验评估表明，与 TPVFormer 相比，提出的 S2TPVFormer 在三维语义占据上取得了 3.1% 的平均交集联合（mIoU）改进，验证了其提高三维场景感知效果的有效性。

Jan, 2024

PointOcc：基于点的三透视图用于点云三维语义占据预测

自动驾驶中的语义分割已由稀疏点分割演变为密集体素分割，我们提出了圆柱三视角视图和 PointOcc 模型来代表点云并高效处理，实验结果表明 PointOcc 在速度方面比其他方法更快且性能更好。

Aug, 2023

通过前向上视图投影实现单目 BEV 道路场景感知

提出基于前视单目图像的局部鸟瞰地图重建新框架，利用前向到俯视图像变换（FTVP）模块中的多尺度设计和周期性一致性约束，实现低成本高效的道路与汽车区域感知以及多类别场景理解。在公共基准测试中，该方法在道路布局估计，车辆占用估计和多类别语义估计任务中均达到了最先进的性能，并且在多类别语义估计中优于所有竞争对手。

Nov, 2022

SparseOcc（稀疏隐含表示）：重新考虑基于视觉的语义占用预测

提出了 SparseOcc，一种受稀疏点云处理启发的高效占据网络，利用了无损稀疏潜在表示的三个关键创新。通过空间分解的 3D 稀疏卷积核执行潜在补全的 3D 稀疏扩散器；通过特征金字塔和稀疏插值从其他尺度获取信息；将 Transformer 头改造为稀疏变种。SparseOcc 在 FLOP 上实现了惊人的 74.9% 减少，同时在精确度上有所提高。

Apr, 2024

DuoSpaceNet：利用鸟瞰和透视视图表示的三维物体检测

通过整合鸟瞰图的 3D 特征和传统 2D 视角图像特征，我们提出了一个名为 DuoSpaceNet 的方法，实现了在 nuScenes 数据集上的 3D 物体检测和鸟瞰图分割的最新成果。

May, 2024

基于参数化深度的特征表示学习在鸟瞰图中的物体检测和分割

本文提出了一种利用几何信息通过参数化深度分布建模来进行图像特征转换的方法，通过将 2D 图像特征提升到自车定义的三维空间，并根据深度导出的三维空间占用情况将三维特征体积聚合到鸟瞰视图中进行特征转换，以解决自动驾驶中图像特征转换的瓶颈问题。进一步，在语义分割中提出了一种可靠的可见性感知评估度量，通过考虑该度量可以减轻幻觉问题，并在 nuScenes 数据集上的目标检测和语义分割实验中验证了方法的优越性。

Jul, 2023

FastOcc: 通过融合二维俯视图和透视视图加速三维占据预测

在自动驾驶中，通过分析网络效应和延迟，本文提出了一种名为 FastOcc 的新方法，通过用轻量级的 2D BEV 卷积网络代替时间消耗较大的 3D 卷积网络，加快模型的推理速度，同时保持准确性，从而实现了优越的性能。

Mar, 2024

利用 BEV 表示进行 360 度视觉地点识别

本文探讨了采用鸟瞰图在 360 度视觉地点识别（VPR）中的优势，提出了一种利用 BEV 表示的新型网络架构，该架构将视觉线索和空间感知进行桥接，并在两个数据集上进行了验证。

May, 2023

COTR: 基于视觉的紧凑式占据 Transformer 用于 3D 占据预测

自主驾驶中感兴趣的 3D 占据预测，通过其出色的几何认知和一般物体识别能力来推动。为了实现这一点，当前的工作试图构建从鸟瞰图感知扩展的三透视视图（TPV）或占据（OCC）表示。然而，像 TPV 表示这样的压缩视图会丢失 3D 几何信息，而原始和稀疏的 OCC 表示则需要大量但冗余的计算成本。为了解决上述限制，我们提出了一种紧凑的占据转换器（COTR），它具有一个具有几何意识的占据编码器和一个语义意识的组解码器来重建紧凑的 3D OCC 表示。经验性实验表明，在多个基线上有明显的性能提升，例如，COTR 相对改进 8%-15%，证明了我们方法的优越性。

Dec, 2023

从鸟瞰感知的恶魔深入探索：综述、评估与方法

本文综述了关于 Bird's-eye-view（BEV）感知的最新研究工作，探讨了多传感器融合、BEV 视角下物体检测与定位等关键问题，并介绍了一系列实用的指南和工具来提高 BEV 任务的性能，最后指出了该领域未来的研究方向。

Sep, 2022