VoxFormer:基于摄像机的稀疏体素变换器用于三维语义场景完成
本文介绍了一种基于视觉的语义场景补全方法,通过稀疏到稠密的转换和上下文与几何感知,使用 CGFormer 神经网络结构在不同尺度上提高了语义和几何表示能力,取得了在两个基准数据集上的最优性能。
May, 2024
本文介绍了 OccFormer,一种双路径 Transformer 网络,有效地处理了用于自主驾驶的 3D 立体体素特征,并在 SemanticKITTI 数据集上对语义完整性和 nuScenes 数据集上的 LiDAR 语义分割方面优于现有方法。
Apr, 2023
提出一种基于对象中心表示法的 3D 语义占位预测方法,通过稀疏 3D 语义高斯来描述场景,通过注意机制从图像中聚合信息并迭代细化 3D 高斯的属性,然后通过高斯到体素喷洒方法生成 3D 占位预测。
May, 2024
本文介绍了 Voxel Transformer (VoTr),这是一种用于 3D 目标检测的新型有效的基于体素的 Transformer 骨干网络。我们通过引入基于 Transformer 的体系结构来解决仅使用体素的 3D 卷积骨干不能有效地捕获大的上下文信息的问题,并且我们提出的 VoTr 在 KITTI 议会和 Waymo 开放数据集上展现了良好的性能。
Sep, 2021
本文提出了一种针对 3D 目标检测的模型 Sparse Window Transformer(SWFormer),它能够充分利用点云数据的稀疏性,并通过 “桶” 技术对不同长度的稀疏窗口有效地进行处理。在 Multi-scale 特征融合和窗口偏移操作的基础上,作者还引入了新的体素扩散技术。最终,在 Waymo Open Dataset 上的实验结果表明,SWFormer 相比于所有先前的单阶段和两阶段模型,取得了最新的 73.36 L2 mAPH 表现,同时更加高效。
Oct, 2022
基于 3D 占据率、多视图特征聚合和动态场景的研究,我们提出了 ViewFormer,一个基于 Transformer 的视觉中心框架,具有高度的可扩展性和优越性能。
May, 2024
本文提出了一种统一、简单、有效的模型 OneFormer3D,利用可学习的卷积核同时处理实例分割和语义分割,通过输入统一的实例和语义查询来训练,并在 ScanNet 测试排行榜中取得了第一名和新的最佳性能,同时在 ScanNet、ScanNet200 和 S3DIS 数据集上展示了最领先的语义、实例和全景分割结果。
Nov, 2023
LegoFormer 是一种基于 transformer 模型的体素 3D 重建技术,通过使用自注意力层在所有计算阶段分享视角之间的信息,并将输出分解为低秩矩阵,从而实现对各个独立结构的预测和聚合,具有竞争性的性能和可解释性的优点,可用于现实数据的广义重建任务。
Jun, 2021
本文提出了一种命名为 SparseFormer 的新方法,以在端到端的方式中模仿人的稀疏视觉识别,其中 SparseFormer 使用稀疏特征抽样过程,在潜在空间中使用极少量的标记(降至 49),而不是在原始像素空间中处理密集单元,从而具有更低的计算成本。SparseFormer 在 ImageNet 分类基准数据集上的实验表明,它具有与规范或已建立模型相当的性能,同时提供更好的准确度 - 吞吐量权衡,并且设计我们的网络可以以更低的计算成本轻松扩展到视频分类。
Apr, 2023
XFormer 是一种新型的人体网格和动作捕捉方法,能够仅用单目图像即可实现在普通 CPU 上的实时性能,并能够高效地训练于多种数据集,其关键在于跨模态的 transformer block。
May, 2023