ViewFormer:基于视图引导的 Transformer 模型探索多视角 3D 占位感知的时空建模
本研究针对自主驾驶系统中对三维场景的整体理解和推理的重要性展开研究,将三维语义占据预测作为自主驾驶和机器人下游任务的预训练任务,与三维检测等方法相比,它更准确地捕捉了三维细节。现有方法主要关注空间线索,而忽视了时间线索。基于查询的方法常常使用计算密集的体素表示对三维场景信息进行编码。本研究介绍了 S2TPVFormer,它是 TPVFormer 的扩展,利用时空变换器结构进行一致的三维语义占据预测。强调了时空线索在三维场景感知中的重要性,特别是在三维语义占据预测中,我们的工作探索了较少研究的时间线索领域。通过利用三视角视图(Tri-Perspective View,简称 TPV)表示,我们的时空编码器生成具有时间上下文的嵌入,提高了预测的一致性,同时保持了计算效率。为了实现这一点,我们提出了一种新颖的时空跨视图混合注意机制(Temporal Cross-View Hybrid Attention,简称 TCVHA),促进了 TPV 视图之间的有效时空信息交流。对 nuScenes 数据集的实验评估表明,与 TPVFormer 相比,提出的 S2TPVFormer 在三维语义占据上取得了 3.1% 的平均交集联合(mIoU)改进,验证了其提高三维场景感知效果的有效性。
Jan, 2024
本文介绍了 OccFormer,一种双路径 Transformer 网络,有效地处理了用于自主驾驶的 3D 立体体素特征,并在 SemanticKITTI 数据集上对语义完整性和 nuScenes 数据集上的 LiDAR 语义分割方面优于现有方法。
Apr, 2023
本研究为多视角三维形状识别和检索提出了 ViewFormer 方法,该方法通过提出 “视角集” 视角,采用一种自适应的注意力模型来捕捉视图集中的元素之间的成对和高阶相关性,并将学习到的多视角相关性聚合到一个富有表达力的视角集描述符中进行识别和检索。实验证明,该方法在不同任务和数据集上具有惊人的能力。特别是在 ModelNet40 数据集上,ViewFormer 首次达到 98.8%的识别准确率,超过了之前最好的方法 1.1%的表现。
Apr, 2023
本文提出了新的 BEVFormer 框架,该框架学习使用时空变形器的统一 BEV 表示,以支持多个自主驾驶感知任务。在 nuScenes 测试集中,该方法达到了 56.9%的最新技术水平,且在低能见度条件下显着提高了速度估计和对象召回的准确性。
Mar, 2022
通过采用自适应前视转换和流建模的双阶段框架,我们提出了一种创新的方法,以增强 3D 占用和流的预测能力。我们首先独立训练占用模型,然后使用连续帧集成进行流预测。我们的方法将回归与分类相结合,以解决不同场景中的尺度变化,并利用预测的流将当前体素特征扭曲到未来帧,由未来帧的真值引导。在 nuScenes 数据集上的实验结果表明,我们的方法在准确性和鲁棒性方面取得了显著的改进,展示了我们方法在真实环境下的有效性。基于 Swin-Base 的单一模型在公共排行榜上排名第二,验证了我们方法在推进自动驾驶车辆感知系统方面的潜力。
Jul, 2024
通过提出一种新的 3D Occupancy 表示法 (OccNet),并在 nuScenes 数据集上建立了 OpenOcc,我们方法能够有效地为多个驾驶任务提供有力的支持,并取得了显著的性能收益,例如运动规划可以实现 15%-58%的碰撞率降低。
Jun, 2023
提出一种基于对象中心表示法的 3D 语义占位预测方法,通过稀疏 3D 语义高斯来描述场景,通过注意机制从图像中聚合信息并迭代细化 3D 高斯的属性,然后通过高斯到体素喷洒方法生成 3D 占位预测。
May, 2024
我们的研究论文提出了一种名为 “occTransformer” 的解决方案,用于 CVPR 2023 的自动驾驶挑战中的 3D 占据预测。该方法基于强大的基准模型 BEVFormer,并通过几种简单但有效的技术来提高其性能。
Feb, 2024
采用鸟瞰图(BEV)描述自动驾驶中的三维场景难以描绘细粒度的三维结构,因此我们提出了三面图(TPV)表示法,并使用基于注意力机制的 TPV 编码器实现了显著的提升。模型可以通过稀疏监督有效预测语义占用,仅使用相机输入在 LiDAR 分割任务上可实现与基于 LiDAR 的方法相当的性能。
Feb, 2023
在自动驾驶中,通过分析网络效应和延迟,本文提出了一种名为 FastOcc 的新方法,通过用轻量级的 2D BEV 卷积网络代替时间消耗较大的 3D 卷积网络,加快模型的推理速度,同时保持准确性,从而实现了优越的性能。
Mar, 2024