Jan, 2024

S2TPVFormer:时空三视角视图用于具有时间一致性的 3D 语义占据预测

TL;DR本研究针对自主驾驶系统中对三维场景的整体理解和推理的重要性展开研究,将三维语义占据预测作为自主驾驶和机器人下游任务的预训练任务,与三维检测等方法相比,它更准确地捕捉了三维细节。现有方法主要关注空间线索,而忽视了时间线索。基于查询的方法常常使用计算密集的体素表示对三维场景信息进行编码。本研究介绍了 S2TPVFormer,它是 TPVFormer 的扩展,利用时空变换器结构进行一致的三维语义占据预测。强调了时空线索在三维场景感知中的重要性,特别是在三维语义占据预测中,我们的工作探索了较少研究的时间线索领域。通过利用三视角视图(Tri-Perspective View,简称 TPV)表示,我们的时空编码器生成具有时间上下文的嵌入,提高了预测的一致性,同时保持了计算效率。为了实现这一点,我们提出了一种新颖的时空跨视图混合注意机制(Temporal Cross-View Hybrid Attention,简称 TCVHA),促进了 TPV 视图之间的有效时空信息交流。对 nuScenes 数据集的实验评估表明,与 TPVFormer 相比,提出的 S2TPVFormer 在三维语义占据上取得了 3.1% 的平均交集联合(mIoU)改进,验证了其提高三维场景感知效果的有效性。