超点 Transformer 实现高效三维语义分割
本文介绍了一种基于 Fast Point Transformer 的新型轻量级自我关注层的方法,用于对大型 3D 场景进行处理和提高计算效率,并应用于 3D 语义分割和 3D 检测,具有与基于体素的最佳方法相竞争的准确性和比 Point Transformer 更快的推理时间。
Dec, 2021
该研究提出了一种基于深度学习的新框架,用于解决数百万点的大规模点云的语义分割挑战。该框架使用超级点图和图卷积网络等技术,取得了室内和户外 LiDAR 扫描分割方面的新成果。
Nov, 2017
介绍了一种高效的方法,通过将大型 3D 点云的全景分割任务重新定义为可扩展的图聚类问题来进行。该方法可以仅使用本地辅助任务进行训练,从而在训练过程中消除了资源密集型的实例匹配步骤。此外,我们的方法可以轻松适应 superpoint 范例,进一步提高其效率。这使得我们的模型能够在单次推理中处理具有数百万个点和数千个对象的场景。我们的方法(SuperCluster)在两个室内扫描数据集(S3DIS Area 5 的 PQ 指标为 50.1(+7.8),ScanNetV2 的 PQ 指标为 58.7(+25.2))上实现了全景分割的最新性能。此外,我们还在两个大规模移动映射基准测试(KITTI-360 和 DALES)中取得了首个最先进的结果。我们的模型仅有 209k 个参数,比最佳竞争方法小 30 倍,训练速度最高提高 15 倍。我们的代码和预训练模型可在此 https URL 获取。
Jan, 2024
本文提出了一种统一、简单、有效的模型 OneFormer3D,利用可学习的卷积核同时处理实例分割和语义分割,通过输入统一的实例和语义查询来训练,并在 ScanNet 测试排行榜中取得了第一名和新的最佳性能,同时在 ScanNet、ScanNet200 和 S3DIS 数据集上展示了最领先的语义、实例和全景分割结果。
Nov, 2023
3DLST 是一种新颖的 3D Transformer 框架,通过引入 DSO 块实现高效的令牌聚类和聚合,提出了高效的 CAU 块用于令牌重构,并采用 W-net 架构进行基于 Transformer 的特征学习,其在多个具有挑战性的 LiDAR 数据集上表现出优越性能和适应性。
May, 2024
SegFormer3D 是一种记忆高效的分层 Transformer,在 3D 医学图像分割中拥有比当前最先进模型更少的参数和更低的 GFLOPS,并在 Synapse、BRaTs 和 ACDC 等广泛使用的数据集上取得竞争性结果。
Apr, 2024
通过使用超像素与现代 Transformer 框架相结合,本研究提出一种能在语义分割领域获得最先进性能的方法,通过学习将像素空间分解为低维超像素空间,并运用多头自注意力机制来丰富超像素特征以获得全局上下文信息,最终实现了更高的计算效率和模型性能。
Sep, 2023
本文提出了 Stratified Transformer 算法,实现了对于长程依赖的建模,通过关键采样策略提高了机器学习模型的有效感受野,并且结合位置编码增强了性能与收敛速度。实验也证明了该算法在三个数据集上的有效性和优越性。
Mar, 2022
提出了一种基于 Semantic Superpoint Tree Network (SSTNet) 的端到端解决方案,其通过学习场景点的语义特征构建中间的语义超级点树(SST), 在中间树节点处进行实例对象的建议,以及通过一个模块对错误的超级点进行修剪, 针对数据不规则性提出了一种改进的方法。在 ScanNet 和 S3DIS 的基准测试中表现出强大的实用性。
Aug, 2021
提出了一种用于室内场景的新型超点分组网络,通过对原始点云进行超点划分,利用几何感知的投票模块调整超点和物体中心之间的空间关系,采用超点注意力层和超点 - 体素融合层来探索提案内的一致性表示,利用超点来基于动态感受野进行有效的多次匹配,实现室内一阶段 3D 物体检测的最新性能。
Dec, 2023