Refiner: 为视觉 Transformer 优化自注意力
本文发现 Vision transformers 模型存在 attention collapse issue 现象,即 transformer 模型越深层次的注意力权重变得越相似,严重影响模型性能,提出了一种名为 Re-attention 的有效方法来解决该问题,使得 32 层的 Vision transformers 模型在 ImageNet 数据集的 Top-1 分类准确率上提高了 1.6%。
Mar, 2021
Vision Transformers (ViTs) have revolutionized computer vision, but their computational complexity and attention saturation issues limit their practical application. The Less-Attention Vision Transformer (LaViT) proposes a novel approach that reduces the number of attention operations and leverages previously calculated attention scores, resulting in superior efficiency and performance across vision tasks.
Jun, 2024
通过引入新的残差注意力学习方法来改善 Vision Transformer (ViT) 架构,包括增加视觉特征多样性和模型的鲁棒性,以提高识别系统的准确性。在五个图像分类基准测试中,通过对 ImageNet1k、CIFAR10、CIFAR100、Oxford Flowers-102 和 Oxford-IIIT Pet 数据集的评估,显示出所提方法的有效性和鲁棒性。此外,该方法在 COCO2017 数据集上的实验表明,在空间感知转换器模型中实现时,能发现和整合目标检测和目标实例分割的语义和空间关系。
Feb, 2024
本文提出了一种采用金字塔结构和新的区域到局部注意力的视觉 transformer(ViT)架构,可以在图像分类和目标检测等四个任务上优于目前最先进的视觉 transformer(ViT)变体。
Jun, 2021
本文介绍了近期表现最佳的 Vision Transformers 方法,对其强弱项、计算成本、训练和测试数据集进行了全面综述,并在流行基准数据集上与各种 ViT 算法以及代表性 CNN 方法的性能进行了充分比较,最后讨论了一些局限性和提出了未来研究方向。
Mar, 2022
本文研究在 Vision Transformers 与卷积神经网络之间构建混合模型时的计算瓶颈问题,探索采用卷积层进行初始化以达到更快的训练速度,得到的 Transformed CNN (T-CNN) 相比 CNN 在 ImageNet-1k 上有 2.2% top-1 和 ImageNet-C 上有 11% top-1 的性能提升,研究发现初始化 T-CNN 可以从部分训练的 CNN 开始进行,可以更快地达到高性能。
Jun, 2021
本文旨在分析分析 ViT 模型中自注意力机制对于图像处理中的处理噪声和疑问具有的灵活度,并探讨基于形状编码的图像编码方法,以及使用 ViT 以无需像素级监督的方式实现准确的语义分割。
May, 2021
本文介绍视觉 Transformer (ViT) 在使用自注意力机制的基础上,探究其能否表达卷积操作,并证明使用输入图像块的单个 ViT 层可以构建任何卷积操作,其中多头注意机制和相对位置编码起着关键作用。作者还提供了 Vision Transformer 表达 CNN 所需头数的下限,该证明的构建可以帮助将卷积偏差注入 Transformer,并在低数据环境下显著提高 ViT 的性能。
Nov, 2021
本文提出基于自注意力块的局部信息增强模块 LIFE,通过提取补丁级别的局部信息并将其合并到 ViTs 的嵌入中,在小尺寸图像分类数据集上改进了 ViTs 的性能,并将其推广到目标检测和语义分割等下游任务,在此基础上,引入了一种新的可视化方法 —— 密集注意力 Roll-Out,特别适用于密集预测任务。
May, 2023
本研究提出了一种新颖的高斯混合蒙版(GMM)方法,在没有预训练的情况下通过改进局部建模的方式来提升 Vision Transformer(ViT)在小数据集上的性能,实验证明该方法对于提升 ViT 的效果显著,几乎不增加额外参数或计算成本。
Sep, 2023