Refiner: 为视觉 Transformer 优化自注意力

Jun, 2021

Refiner: 为视觉 Transformer 优化自注意力

Refiner: Refining Self-attention for Vision Transformers

Daquan Zhou, Yujun Shi, Bingyi Kang, Weihao Yu, Zihang Jiang...

TL;DR通过引入一个概念简单的方案，称为 Refiner，直接改进 Vision Transformers 的自注意映射，该方案探索了一种名为 attention expansion 的扩张机制，可以将多头注意力地图投射到高维空间以促进其多样性，然后应用卷积来增强注意力地图的局部模式，成功在 ImageNet 上实现了 86% 的准确性。

Abstract

vision transformers (ViTs) have shown competitive accuracy in image classification tasks compared with CNNs. Yet, they generally require much more data for model pre-training. Most of recent works thus are dedicated to designing more complex architectures or training methods to address

vision transformers self-attention mechanism refiner data-efficiency image classification

发现论文，激发创造

DeepViT: 朝更深层次的 Vision Transformer 进发

本文发现 Vision transformers 模型存在 attention collapse issue 现象，即 transformer 模型越深层次的注意力权重变得越相似，严重影响模型性能，提出了一种名为 Re-attention 的有效方法来解决该问题，使得 32 层的 Vision transformers 模型在 ImageNet 数据集的 Top-1 分类准确率上提高了 1.6%。

Mar, 2021

视觉 Transformer 的每个阶段只需要更少的注意力

Vision Transformers (ViTs) have revolutionized computer vision, but their computational complexity and attention saturation issues limit their practical application. The Less-Attention Vision Transformer (LaViT) proposes a novel approach that reduces the number of attention operations and leverages previously calculated attention scores, resulting in superior efficiency and performance across vision tasks.

Jun, 2024

ReViT: 增强视觉变压器的注意力残差连接用于视觉识别

通过引入新的残差注意力学习方法来改善 Vision Transformer (ViT) 架构，包括增加视觉特征多样性和模型的鲁棒性，以提高识别系统的准确性。在五个图像分类基准测试中，通过对 ImageNet1k、CIFAR10、CIFAR100、Oxford Flowers-102 和 Oxford-IIIT Pet 数据集的评估，显示出所提方法的有效性和鲁棒性。此外，该方法在 COCO2017 数据集上的实验表明，在空间感知转换器模型中实现时，能发现和整合目标检测和目标实例分割的语义和空间关系。

Feb, 2024

RegionViT: 基于区域到局部的视觉转换器注意力机制

本文提出了一种采用金字塔结构和新的区域到局部注意力的视觉 transformer（ViT）架构，可以在图像分类和目标检测等四个任务上优于目前最先进的视觉 transformer（ViT）变体。

Jun, 2021

视觉 Transformer 的最新进展：近期研究的综述和展望

本文介绍了近期表现最佳的 Vision Transformers 方法，对其强弱项、计算成本、训练和测试数据集进行了全面综述，并在流行基准数据集上与各种 ViT 算法以及代表性 CNN 方法的性能进行了充分比较，最后讨论了一些局限性和提出了未来研究方向。

Mar, 2022

Transformed CNNs: 用自注意力机制重塑预训练卷积层

本文研究在 Vision Transformers 与卷积神经网络之间构建混合模型时的计算瓶颈问题，探索采用卷积层进行初始化以达到更快的训练速度，得到的 Transformed CNN (T-CNN) 相比 CNN 在 ImageNet-1k 上有 2.2% top-1 和 ImageNet-C 上有 11% top-1 的性能提升，研究发现初始化 T-CNN 可以从部分训练的 CNN 开始进行，可以更快地达到高性能。

Jun, 2021

视觉 Transformer 的引人注目的性质

本文旨在分析分析 ViT 模型中自注意力机制对于图像处理中的处理噪声和疑问具有的灵活度，并探讨基于形状编码的图像编码方法，以及使用 ViT 以无需像素级监督的方式实现准确的语义分割。

May, 2021

视觉 Transformer 能否执行卷积？

本文介绍视觉 Transformer (ViT) 在使用自注意力机制的基础上，探究其能否表达卷积操作，并证明使用输入图像块的单个 ViT 层可以构建任何卷积操作，其中多头注意机制和相对位置编码起着关键作用。作者还提供了 Vision Transformer 表达 CNN 所需头数的下限，该证明的构建可以帮助将卷积偏差注入 Transformer，并在低数据环境下显著提高 ViT 的性能。

Nov, 2021

在小数据集上通过本地归纳偏置引入提高视觉 Transformer 的性能

本文提出基于自注意力块的局部信息增强模块 LIFE，通过提取补丁级别的局部信息并将其合并到 ViTs 的嵌入中，在小尺寸图像分类数据集上改进了 ViTs 的性能，并将其推广到目标检测和语义分割等下游任务，在此基础上，引入了一种新的可视化方法 —— 密集注意力 Roll-Out，特别适用于密集预测任务。

May, 2023

CNN 还是 ViT？透过卷积再探视觉 Transformer

本研究提出了一种新颖的高斯混合蒙版（GMM）方法，在没有预训练的情况下通过改进局部建模的方式来提升 Vision Transformer（ViT）在小数据集上的性能，实验证明该方法对于提升 ViT 的效果显著，几乎不增加额外参数或计算成本。

Sep, 2023