S2TPVFormer：时空三视角视图用于具有时间一致性的 3D 语义占据预测

Jan, 2024

S2TPVFormer：时空三视角视图用于具有时间一致性的 3D 语义占据预测

S2TPVFormer: Spatio-Temporal Tri-Perspective View for temporally coherent 3D Semantic Occupancy Prediction

Sathira Silva, Savindu Bhashitha Wannigama, Roshan Ragel, Gihan Jayatilaka

TL;DR本研究针对自主驾驶系统中对三维场景的整体理解和推理的重要性展开研究，将三维语义占据预测作为自主驾驶和机器人下游任务的预训练任务，与三维检测等方法相比，它更准确地捕捉了三维细节。现有方法主要关注空间线索，而忽视了时间线索。基于查询的方法常常使用计算密集的体素表示对三维场景信息进行编码。本研究介绍了 S2TPVFormer，它是 TPVFormer 的扩展，利用时空变换器结构进行一致的三维语义占据预测。强调了时空线索在三维场景感知中的重要性，特别是在三维语义占据预测中，我们的工作探索了较少研究的时间线索领域。通过利用三视角视图（Tri-Perspective View，简称 TPV）表示，我们的时空编码器生成具有时间上下文的嵌入，提高了预测的一致性，同时保持了计算效率。为了实现这一点，我们提出了一种新颖的时空跨视图混合注意机制（Temporal Cross-View Hybrid Attention，简称 TCVHA），促进了 TPV 视图之间的有效时空信息交流。对 nuScenes 数据集的实验评估表明，与 TPVFormer 相比，提出的 S2TPVFormer 在三维语义占据上取得了 3.1% 的平均交集联合（mIoU）改进，验证了其提高三维场景感知效果的有效性。

Abstract

holistic understanding and reasoning in 3d scenes play a vital role in the success of autonomous driving systems. The evolution of 3D sema

holistic understanding 3d scenes autonomous driving 3d semantic occupancy prediction spatiotemporal cues

发现论文，激发创造

基于视觉的三视角视图的 3D 语义占用预测

采用鸟瞰图（BEV）描述自动驾驶中的三维场景难以描绘细粒度的三维结构，因此我们提出了三面图（TPV）表示法，并使用基于注意力机制的 TPV 编码器实现了显著的提升。模型可以通过稀疏监督有效预测语义占用，仅使用相机输入在 LiDAR 分割任务上可实现与基于 LiDAR 的方法相当的性能。

Feb, 2023

ViewFormer：基于视图引导的 Transformer 模型探索多视角 3D 占位感知的时空建模

基于 3D 占据率、多视图特征聚合和动态场景的研究，我们提出了 ViewFormer，一个基于 Transformer 的视觉中心框架，具有高度的可扩展性和优越性能。

May, 2024

OccFormer: 双路径 Transformer 用于基于视觉的 3D 语义占用预测

本文介绍了 OccFormer，一种双路径 Transformer 网络，有效地处理了用于自主驾驶的 3D 立体体素特征，并在 SemanticKITTI 数据集上对语义完整性和 nuScenes 数据集上的 LiDAR 语义分割方面优于现有方法。

Apr, 2023

COTR: 基于视觉的紧凑式占据 Transformer 用于 3D 占据预测

自主驾驶中感兴趣的 3D 占据预测，通过其出色的几何认知和一般物体识别能力来推动。为了实现这一点，当前的工作试图构建从鸟瞰图感知扩展的三透视视图（TPV）或占据（OCC）表示。然而，像 TPV 表示这样的压缩视图会丢失 3D 几何信息，而原始和稀疏的 OCC 表示则需要大量但冗余的计算成本。为了解决上述限制，我们提出了一种紧凑的占据转换器（COTR），它具有一个具有几何意识的占据编码器和一个语义意识的组解码器来重建紧凑的 3D OCC 表示。经验性实验表明，在多个基线上有明显的性能提升，例如，COTR 相对改进 8%-15%，证明了我们方法的优越性。

Dec, 2023

XVTP3D：自动驾驶的跨视图轨迹预测，使用共享的 3D 查询

使用共享的 3D 查询（XVTP3D）进行交叉视图轨迹预测，通过随机蒙版方法和粗到细的跨视图注意力捕捉稳健的跨视图特征，提高了自动驾驶中的多模态轨迹预测表现。

Aug, 2023

TBP-Former: 学习视觉中心自动驾驶联合感知和预测的时间视角金字塔

通过提出基于时间的俯视图金字塔变换器 (TBP-Former)，实现了自动驾驶中多个摄像头视图和时间戳的特征同步以及对空间 - 时间特征的优化，从而在 nuScenes 数据集上表现优于所有最先进的基于视觉的预测方法。

Mar, 2023

基于时空学习的动态环境下未来占据栅格的预测

我们提出了一种时空预测网络管道，它可以从环境和语义标签中获取过去的信息来生成未来的占用预测，并将其应用于复杂的 nuScenes 数据集中，相较于当前 SOTA，我们的方法可以预测长达 3 秒的占用情况，并不需要 HD-Maps 和明确模拟动态物体。

May, 2022

使用内存高效稀疏卷积的自动驾驶实时三维语义占位预测

自动驾驶车辆中，实时理解自身车辆周围的三维环境至关重要。本文介绍一种从前视二维相机图像和 LiDAR 扫描中提取特征并使用稀疏卷积网络（Minkowski Engine）进行三维语义占用预测的方法，以解决实时应用中的高计算需求和稀疏场景完整性的问题。

Mar, 2024

FastOcc: 通过融合二维俯视图和透视视图加速三维占据预测

在自动驾驶中，通过分析网络效应和延迟，本文提出了一种名为 FastOcc 的新方法，通过用轻量级的 2D BEV 卷积网络代替时间消耗较大的 3D 卷积网络，加快模型的推理速度，同时保持准确性，从而实现了优越的性能。

Mar, 2024

SparseOcc（稀疏隐含表示）：重新考虑基于视觉的语义占用预测

提出了 SparseOcc，一种受稀疏点云处理启发的高效占据网络，利用了无损稀疏潜在表示的三个关键创新。通过空间分解的 3D 稀疏卷积核执行潜在补全的 3D 稀疏扩散器；通过特征金字塔和稀疏插值从其他尺度获取信息；将 Transformer 头改造为稀疏变种。SparseOcc 在 FLOP 上实现了惊人的 74.9% 减少，同时在精确度上有所提高。

Apr, 2024