OctFormer: 三维点云的基于八叉树的 Transformer 模型
FlatFormer 是一种 3D 点云变压器网络,通过交换计算负荷和提取局部特征以实现节省计算时间的效果,在边缘 GPU 上实现了实时性能,并在大规模基准测试上达到与或甚至更好的准确性。
Jan, 2023
本文提出了一种针对 3D 目标检测的模型 Sparse Window Transformer(SWFormer),它能够充分利用点云数据的稀疏性,并通过 “桶” 技术对不同长度的稀疏窗口有效地进行处理。在 Multi-scale 特征融合和窗口偏移操作的基础上,作者还引入了新的体素扩散技术。最终,在 Waymo Open Dataset 上的实验结果表明,SWFormer 相比于所有先前的单阶段和两阶段模型,取得了最新的 73.36 L2 mAPH 表现,同时更加高效。
Oct, 2022
本文介绍了一种名为 ScatterFormer 的新方法,该方法能够直接对具有不同长度的体素集进行注意力计算,并通过 Cross-Window 交互模块实现窗口间信息流动,大幅提升了点云理解任务的性能。
Jan, 2024
本文提出了一种基于中心点的变换网络 ——CenterFormer,它使用查询嵌入来聚合中心候选点的特征向量,并设计了一种通过交叉注意力来融合多帧特征的方法。在 Waymo Open 数据集上,CenterFormer 在单个模型上实现了先进水平,取得了 73.7% 的验证集和 75.6% 的测试集 mAPH, 显著优于以前所有已发表的基于 CNN 和 transformer 的方法。
Sep, 2022
本文提出了一种基于 Octree 结构的多上下文深度学习框架 OctAttention,通过对兄弟和祖先节点信息的聚合来实现对点云分布的无损编码,用于进行点云的压缩和语义分割等处理,在仿真和真实场景验证中都显示出较高的性能和效率。
Feb, 2022
本文提出了一种统一、简单、有效的模型 OneFormer3D,利用可学习的卷积核同时处理实例分割和语义分割,通过输入统一的实例和语义查询来训练,并在 ScanNet 测试排行榜中取得了第一名和新的最佳性能,同时在 ScanNet、ScanNet200 和 S3DIS 数据集上展示了最领先的语义、实例和全景分割结果。
Nov, 2023
在点云学习领域中,由于 Transformer 模型生成的注意力矩阵具有输入规模的平方复杂度,因此本文提出了一种采用自适应方式学习较小基础上的基础并通过它们的带权求和来计算注意力矩阵的方法 (PAT),并借助于轻量级的多尺度注意力块(MST)来实现对不同尺度特征的关注,最终构建了一个名为 PatchFormer 的神经网络,为点云学习提供了可比较的准确性,并且比以前的点 Transformers 快 9.2 倍。
Oct, 2021
使用集合转换器在分层框架中对点云进行形状分类和分割,实现了状态 - of-the-art 的性能,并可用于处理大规模稀疏数据。
Jul, 2022
本文介绍了一种基于 Fast Point Transformer 的新型轻量级自我关注层的方法,用于对大型 3D 场景进行处理和提高计算效率,并应用于 3D 语义分割和 3D 检测,具有与基于体素的最佳方法相竞争的准确性和比 Point Transformer 更快的推理时间。
Dec, 2021
本文介绍了一种名为 OcTr 的基于八叉树的 Transformer 方法,通过动态构建八叉树从而实现对远距离或 / 和遮挡物体的有效检测,进一步提出了一种混合位置编码方法以增强前景感知,实验表明 OcTr 方法在 Waymo 开放数据集和 KITTI 数据集上均取得了最新的最佳结果。
Mar, 2023