Transformed CNNs: 用自注意力机制重塑预训练卷积层

Jun, 2021

Transformed CNNs: 用自注意力机制重塑预训练卷积层

Transformed CNNs: recasting pre-trained convolutional layers with self-attention

Stéphane d'Ascoli, Levent Sagun, Giulio Biroli, Ari Morcos

TL;DR本文研究在 Vision Transformers 与卷积神经网络之间构建混合模型时的计算瓶颈问题，探索采用卷积层进行初始化以达到更快的训练速度，得到的 Transformed CNN (T-CNN) 相比 CNN 在 ImageNet-1k 上有 2.2% top-1 和 ImageNet-C 上有 11% top-1 的性能提升，研究发现初始化 T-CNN 可以从部分训练的 CNN 开始进行，可以更快地达到高性能。

Abstract

vision transformers (ViT) have recently emerged as a powerful alternative to convolutional networks (CNNs). Although hybrid models attempt to bridge the gap between these two architectures, the →

vision transformers self-attention layers hybrid models convolutional layers performance gains

发现论文，激发创造

视觉 Transformer 能否执行卷积？

本文介绍视觉 Transformer (ViT) 在使用自注意力机制的基础上，探究其能否表达卷积操作，并证明使用输入图像块的单个 ViT 层可以构建任何卷积操作，其中多头注意机制和相对位置编码起着关键作用。作者还提供了 Vision Transformer 表达 CNN 所需头数的下限，该证明的构建可以帮助将卷积偏差注入 Transformer，并在低数据环境下显著提高 ViT 的性能。

Nov, 2021

Vision Transformer 和卷积神经网络的视觉感知相似吗？

研究比较了卷积神经网络和 Vision Transformer 模型在图像分类任务中的内部表示结构，发现两种架构存在显著差异，其中 self-attention 在加快全局信息聚合方面发挥着关键作用。此外，预训练数据集规模会对中间特征和迁移学习产生影响。

Aug, 2021

DeepViT: 朝更深层次的 Vision Transformer 进发

本文发现 Vision transformers 模型存在 attention collapse issue 现象，即 transformer 模型越深层次的注意力权重变得越相似，严重影响模型性能，提出了一种名为 Re-attention 的有效方法来解决该问题，使得 32 层的 Vision transformers 模型在 ImageNet 数据集的 Top-1 分类准确率上提高了 1.6%。

Mar, 2021

Vision Transformers 及其基于 CNN-Transformer 的变体调查

本文对达到卓越视觉任务表现的一类混合视觉转换器体系结构进行了分类和阐述，其中融合了卷积和自注意力机制，重点讨论了注意力机制、位置嵌入、多尺度处理和卷积等关键特征。

May, 2023

Vision Conformer：将卷积融入 Vision Transformer 层中

本研究通过将卷积神经网络与神经网络模型 Transformer 相结合，提出了一种名为 “Vision Conformer” 的模型，并通过实验证明了此模型对 ViT 图像识别能力的提升。

Apr, 2023

CNN 还是 ViT？透过卷积再探视觉 Transformer

本研究提出了一种新颖的高斯混合蒙版（GMM）方法，在没有预训练的情况下通过改进局部建模的方式来提升 Vision Transformer（ViT）在小数据集上的性能，实验证明该方法对于提升 ViT 的效果显著，几乎不增加额外参数或计算成本。

Sep, 2023

CvT：将卷积引入视觉 Transformer

本文提出了名为 CvT 的新型架构，它通过将卷积引入 ViT 中实现了性能和效率的提升，并在 ImageNet-1K 上表现出优异的性能，验证了此方法的先进性和有效性。

Mar, 2021

ReViT: 增强视觉变压器的注意力残差连接用于视觉识别

通过引入新的残差注意力学习方法来改善 Vision Transformer (ViT) 架构，包括增加视觉特征多样性和模型的鲁棒性，以提高识别系统的准确性。在五个图像分类基准测试中，通过对 ImageNet1k、CIFAR10、CIFAR100、Oxford Flowers-102 和 Oxford-IIIT Pet 数据集的评估，显示出所提方法的有效性和鲁棒性。此外，该方法在 COCO2017 数据集上的实验表明，在空间感知转换器模型中实现时，能发现和整合目标检测和目标实例分割的语义和空间关系。

Feb, 2024

自监督学习中的 CNN 反击：更大的卷积核大小可能就是你所需的一切

卷积神经网络与视觉 Transformer 在自我监督学习任务中表现相近，通过增加卷积核大小和其他小调整即可达到与 Transformer 相同的性能水平。

Dec, 2023

Refiner: 为视觉 Transformer 优化自注意力

通过引入一个概念简单的方案，称为 Refiner，直接改进 Vision Transformers 的自注意映射，该方案探索了一种名为 attention expansion 的扩张机制，可以将多头注意力地图投射到高维空间以促进其多样性，然后应用卷积来增强注意力地图的局部模式，成功在 ImageNet 上实现了 86% 的准确性。

Jun, 2021