CodedVTR：基于码本的稀疏体素变换器以及几何引导

CVPRMar, 2022

CodedVTR：基于码本的稀疏体素变换器以及几何引导

CodedVTR: Codebook-based Sparse Voxel Transformer with Geometric Guidance

Tianchen Zhao, Niansong Zhang, Xuefei Ning, He Wang, Li Yi...

TL;DR提出基于码本的体素 Transformer（CodedVTR）以提高 3D 稀疏体素 Transformer 的数据效率和泛化能力，其中包括通过学习可学习码本中的原型来规范化注意力学习和改善泛化能力，并利用几何信息（几何模式、密度）指导注意力学习。CodedVTR 可嵌入现有的基于稀疏卷积的方法，并为室内和室外 3D 语义分割任务带来一致的性能提升。

Abstract

transformers have gained much attention by outperforming convolutional neural networks in many 2D vision tasks. However, they are known to have generalization problems and rely on massive-scale pre-training and sophisticated training techniques. When applying to →

transformers 3d tasks codedvtr attention learning semantic segmentation

发现论文，激发创造

用于 3D 物体检测的 Voxel Transformer

本文介绍了 Voxel Transformer (VoTr)，这是一种用于 3D 目标检测的新型有效的基于体素的 Transformer 骨干网络。我们通过引入基于 Transformer 的体系结构来解决仅使用体素的 3D 卷积骨干不能有效地捕获大的上下文信息的问题，并且我们提出的 VoTr 在 KITTI 议会和 Waymo 开放数据集上展现了良好的性能。

Sep, 2021

DSVT：具有旋转集的动态稀疏体素变换器

本文介绍了动态稀疏体素变换器（DSVT），它是一个用于室外 3D 感知的单步幅基于体素的转换器骨干。为了有效处理稀疏点云，我们提出了动态稀疏窗口注意力，这将每个窗口中的一系列局部区域根据其稀疏性划分，并以完全并行的方式计算所有区域的特征。在本文中，我们的模型实现了具有广泛 3D 感知任务的最先进的性能，并且可以轻松通过 TensorRT 进行实时推理速度（27Hz）的部署。

Jan, 2023

上下文与几何感知的体素变换器用于语义场景补全

本文介绍了一种基于视觉的语义场景补全方法，通过稀疏到稠密的转换和上下文与几何感知，使用 CGFormer 神经网络结构在不同尺度上提高了语义和几何表示能力，取得了在两个基准数据集上的最优性能。

May, 2024

使用 Transformer 进行体素级别视角选择和融合的体积式 3D 重建

通过学习条件于相机姿态和图像内容的视图融合功能，利用变压器提出端到端体积三维重建网络 VoRTX，其模型鲁棒性强，处理视角多样，能保留更多的细节信息，比现有最先进方法更出色。

Dec, 2021

Voxel Set Transformer：一种从点云进行三维物体检测的集合 - 集合方法

本研究提出了一种名为 Voxel Set Transformer（VoxSeT）的基于体素的体系结构，以检测点云中的三维物体，并结合 Transformer 的高性能和体素模型的效率，有效地管理任意大小的体素化点簇并以线性复杂度并行地处理它们，可用作卷积和基于点的骨干的良好替代方法。

Mar, 2022

使用 Transformer 实现 3D 物体检测的基于体素的统一表示

UVTR 提出了一种统一的框架，旨在提高单模或跨模 3D 检测的准确性和鲁棒性，通过设计模态特定空间，保留体素空间并开发不同传感器的输入，实现几何感知点云和图像的上下文特征的交互，从而在 nuScenes 测试集中获得了领先的性能。

Jun, 2022

GvT: 一种利用稀疏性进行训练的基于图的视觉 Transformer 模型，使用自由发挥，从头开始在小数据集上训练

使用基于图卷积投影和图池化的图神经网络（GvT），并通过基于双线性池化特征和注意张量的稀疏选择的讲话头技术解决注意头降维问题，以及应用图池化来有效降低标记数量和聚合语义信息，实验结果表明 GvT 在小数据集上超越了卷积神经网络和预训练的视觉 Transformer 模型。

Apr, 2024

3D Former: 基于单目视觉的 3D SDF 变换器场景重建

本文提出了一种基于 SDF 转换网络、稀疏窗口注意力模块和上下文注意力网络的三维变换器网络，用于更好地聚合三维特征，提高单目场景重建的精度和完整性。实验结果表明，该网络在多个数据集上优于现有方法，能够提高网格的准确性和完整性。

Jan, 2023

基于 Transformer 的多视角三维重建

本文提出了一种名为 3D Volume Transformer（VolT）的新框架，将多视角 3D 重建转化成了序列到序列的预测问题，并使用 self-attention 来探索多个无序输入之间的视图关系。在大规模 3D 重建基准数据集 ShapeNet 上，我们的方法比其他基于 CNN 的方法使用更少的参数（减少了 70%），实现了新的多视角重建的最新精度。

Mar, 2021

MsSVT++: 混合尺度稀疏体素变换与中心投票用于 3D 物体检测

3D 目标检测中的突出问题是大规模室外场景下对象尺度的变化，需要同时获取远距离和细粒度信息的特征。为了解决这一问题，我们提出了 MsSVT++，一种创新的混合尺度稀疏体素变换器，通过分治方法同时捕捉两类信息。使用棋盘采样策略和哈希映射在 3D 体素空间中进行稀疏的体素采样和聚集操作，以减轻基于窗口的变换器的计算复杂性。同时，引入了中心投票模块，将混合尺度上下文信息丰富的新体素朝着对象中心进行集成，从而提高了精确的对象定位。广泛的实验证明，我们的单阶段检测器在 MsSVT++ 的基础上，对不同的数据集始终表现出优异的性能。

Jan, 2024