卷积变形器用于视觉

Jan, 2022

Convolutional Xformers for Vision

Pranav Jeevan, Amit sethi

TL;DR提出了一种基于线性注意力机制的混合体系结构 ——Convolutional X-formers for Vision（CXV）。通过将 Quintic Transformer，Nyströmformer 和 Linear Transformer 等线性注意力机制代替二次注意力机制，来减少 GPU 使用。CXV 在有限的数据和 GPU 资源（核心，内存，功率）场景下，比其他的架构如 Token mixers（例如 ConvMixer，Fnet 和 MLP Mixer），变换模型（如 ViT，CCT，CvT 和混合 Xformers）以及 ResNets 等，更适用于图像分类任务。

Abstract

vision transformers (ViTs) have found only limited practical use in processing images, in spite of their state-of-the-art accuracy on certain benchmarks. The reason for their limited use include their need for larger training datasets and more computational resources compared to convol

vision transformers convolutional neural networks linear attention mechanisms convolutional x-formers for vision gpu usage reduction

发现论文，激发创造

Vision Conformer：将卷积融入 Vision Transformer 层中

本研究通过将卷积神经网络与神经网络模型 Transformer 相结合，提出了一种名为 “Vision Conformer” 的模型，并通过实验证明了此模型对 ViT 图像识别能力的提升。

Apr, 2023

CvT：将卷积引入视觉 Transformer

本文提出了名为 CvT 的新型架构，它通过将卷积引入 ViT 中实现了性能和效率的提升，并在 ImageNet-1K 上表现出优异的性能，验证了此方法的先进性和有效性。

Mar, 2021

Vision Transformer 和卷积神经网络的视觉感知相似吗？

研究比较了卷积神经网络和 Vision Transformer 模型在图像分类任务中的内部表示结构，发现两种架构存在显著差异，其中 self-attention 在加快全局信息聚合方面发挥着关键作用。此外，预训练数据集规模会对中间特征和迁移学习产生影响。

Aug, 2021

CrossViT: 跨注意力多尺度视觉 Transformer 用于图像分类

本文提出了一种名为 Dual-Branch Transformer 的模型，通过使用不同尺寸的图像块来获得更强的图像特征，进而学习多尺度特征表示，并采用交叉关注的方法进行多尺度特征的融合，使得计算复杂度得到控制，并在 ImageNet1K 数据集上实现了表现优于或与几个同时期的视觉转换器相当的结果。

Mar, 2021

ViTs 随处可见：综合研究展示不同领域中的视觉 Transformer

Transformer 设计是自然语言处理任务的事实标准，并且对计算机视觉领域的研究人员产生了兴趣。与卷积神经网络相比，基于 Transformer 的 Vision Transformers（ViTs）在许多视觉问题中变得更加流行和占主导地位。

Oct, 2023

补丁是你所需的全部？

本文介绍 ConvMixer 模型，它使用标准卷积来混合图像块，并在类似参数计数和数据集大小的情况下胜过 ViT、MLP-Mixer 和一些变种，同时也优于经典的 ResNet 等视觉模型。

Jan, 2022

X-ViT: 高性能线性视觉 Transformer 无 softmax

本文提出了一种名为 X-ViT 的视觉变换模型，其采用线性复杂度的自注意力机制代替了传统的二次复杂度算法，在图像分类和密集预测任务中表现优异。

May, 2022

视觉 Transformer 的引人注目的性质

本文旨在分析分析 ViT 模型中自注意力机制对于图像处理中的处理噪声和疑问具有的灵活度，并探讨基于形状编码的图像编码方法，以及使用 ViT 以无需像素级监督的方式实现准确的语义分割。

May, 2021

视觉 Transformer 能否执行卷积？

本文介绍视觉 Transformer (ViT) 在使用自注意力机制的基础上，探究其能否表达卷积操作，并证明使用输入图像块的单个 ViT 层可以构建任何卷积操作，其中多头注意机制和相对位置编码起着关键作用。作者还提供了 Vision Transformer 表达 CNN 所需头数的下限，该证明的构建可以帮助将卷积偏差注入 Transformer，并在低数据环境下显著提高 ViT 的性能。

Nov, 2021

一张图像胜过 16*16 个单词：规模下的图像识别变形金刚

本文研究使用 Transformer 代替 CNN 进行图像分类，实现在计算资源少的情况下，取得比目前卷积网络更好的识别结果，从而在计算机视觉上取得突破。

Oct, 2020