从2D视觉Transformer开始解决3D视觉任务？

Sep, 2022

从2D视觉Transformer开始解决3D视觉任务？

Can We Solve 3D Vision Tasks Starting from A 2D Vision Transformer?

Yi Wang, Zhiwen Fan, Tianlong Chen, Hehe Fan, Zhangyang Wang

TL;DR本文提出一种通用的视觉转换器（Visual Transformer），名为Simple3D-Former，可用于高效地进行2D和3D任务的训练和预测，并且相比高度定制的3D特有设计实现了惊人的鲁棒性，同时利用大规模现实2D图像的预训练权重可免费提高3D任务的性能.

Abstract

Vision Transformers (ViTs) have proven to be effective, in solving 2d image understanding tasks by training over large-scale image datasets; and meanwhile as a somehow separate track, in modeling the 3d visual wo

发现论文，激发创造

CvT：将卷积引入视觉Transformer

本文提出了名为CvT的新型架构，它通过将卷积引入ViT中实现了性能和效率的提升，并在ImageNet-1K上表现出优异的性能，验证了此方法的先进性和有效性。

Mar, 2021

视觉Transformer的引人注目的性质

本文旨在分析分析ViT模型中自注意力机制对于图像处理中的处理噪声和疑问具有的灵活度，并探讨基于形状编码的图像编码方法，以及使用ViT以无需像素级监督的方式实现准确的语义分割。

May, 2021

一种用于3D物体检测的端到端Transformer模型

3DETR是一种基于Transformer的端到端目标检测模型，适用于3D点云，相较于现有的检测方法，它需要最少的修改，可以通过将3D领域知识整合进去得到进一步的改进，在ScanNetV2数据集上，相比于VoteNet基线具有9.5%更好的性能，并且适用于其他3D任务。

Sep, 2021

一个简单的单尺度视觉Transformer用于物体定位和实例分割

本文提出了一种简单的视觉Transformer设计，作为目标定位和实例分割任务的强大基线，绕过传统设计思路，通过UViT架构实现更好的计算成本和多尺度全局上下文聚合的平衡。

Dec, 2021

无需训练的自适应视觉Transformer

提出了一种名为As-ViT的自动缩放框架，用于设计和扩展Vision Transformers(ViT)，并在分类和检测任务上获得了强大的性能，其模型设计和缩放过程仅需12小时的训练。

Feb, 2022

视觉Transformer的最新进展：近期研究的综述和展望

本文介绍了近期表现最佳的 Vision Transformers 方法，对其强弱项、计算成本、训练和测试数据集进行了全面综述，并在流行基准数据集上与各种 ViT 算法以及代表性 CNN 方法的性能进行了充分比较，最后讨论了一些局限性和提出了未来研究方向。

Mar, 2022

使用视觉Transformer进行高效的3D物体重建

使用视觉transformer替代卷积在现有的高效，高性能的3D目标重建技术中，预测三维结构并取得类似或优于基线方法的准确度，表明视觉transformer在三维目标重建任务中有着巨大的潜力。

Feb, 2023

Mask3D：通过学习掩码的3D先验知识预训练2D视觉Transformer

提出了一种名为Mask3D的预训练方法，可以将现有的大规模RGB-D数据应用于自监督预训练中，将3D先验嵌入到2D的学习特征中，并对多个场景理解任务产生了改进，尤其是语义分割。

Feb, 2023

ODIN：一个用于2D和3D感知的单一模型

ODIN是一种利用转换器架构，在2D RGB图像和3D点云上进行分割和标记的模型，通过位置编码区分2D和3D特征操作，在多个基准测试上实现了最先进的性能。

Jan, 2024

Any2Point：强化各模态大型模型以实现高效的三维理解

Any2Point是一种参数高效的方法，通过引入虚拟投影策略和引导适配器模块，使得基于任何模态（视觉、语言、音频）的大型模型能够进行3D理解，并且在实验中展示了方法的有效性和高效性。

Apr, 2024