残差卷积演化关注机制
通过全面分析 Transformer 架构(多头注意力、残差连接和层归一化)来研究其性能表现,发现中间表示的交互通过注意力执行的作用比先前假定的要小,并提供了新的直观解释。
Sep, 2021
通过引入新的残差注意力学习方法来改善 Vision Transformer (ViT) 架构,包括增加视觉特征多样性和模型的鲁棒性,以提高识别系统的准确性。在五个图像分类基准测试中,通过对 ImageNet1k、CIFAR10、CIFAR100、Oxford Flowers-102 和 Oxford-IIIT Pet 数据集的评估,显示出所提方法的有效性和鲁棒性。此外,该方法在 COCO2017 数据集上的实验表明,在空间感知转换器模型中实现时,能发现和整合目标检测和目标实例分割的语义和空间关系。
Feb, 2024
提出了一种名为 RealFormer 的技术,可以创建残差注意力层的 Transformer 网络,并在许多任务上显著优于标准 Transformer 及其变体。该技术不仅稳定了训练,而且还可以导致具有更少注意力的模型,并提供了预训练检查点。
Dec, 2020
本文研究在 Vision Transformers 与卷积神经网络之间构建混合模型时的计算瓶颈问题,探索采用卷积层进行初始化以达到更快的训练速度,得到的 Transformed CNN (T-CNN) 相比 CNN 在 ImageNet-1k 上有 2.2% top-1 和 ImageNet-C 上有 11% top-1 的性能提升,研究发现初始化 T-CNN 可以从部分训练的 CNN 开始进行,可以更快地达到高性能。
Jun, 2021
通过引入注意力机制,在端到端的训练过程中将其与最先进的前馈网络结构相结合,我们提出了一种卷积神经网络模型 “Residual Attention Network”,并在 CIFAR-10、CIFAR-100 和 ImageNet 三个基准数据集上实现了最佳的物体识别表现。
Apr, 2017
通过使用基于卷积神经网络而非 encoder-decoder 结构的方法,每一层在输出序列上重新编码源标记,我们的模型在参数更少的情况下表现出色,优于现有的机器翻译系统。
Aug, 2018
本文针对使用卷积操作在视觉任务中只关注局部局部信息、缺乏全局信息的不足,提出运用自注意力机制对视觉任务进行处理的方法;通过在图像分类和目标检测任务中实现卷积和自注意力的融合,可有效提高模型精度。
Apr, 2019
本文提出了一种修改 Transformer 层内部结构的方法,将多头注意力子层和 MLP 子层并行布置,并且结合使用神经 ODE 求解器的高级积分方案,提高了 Transformer 网络在多个任务中的性能。
Dec, 2022
本篇研究展示了,通过正确地定义卷积神经网络中的注意力机制,可以将强大的老师网络的注意力图传递给学生网络,从而显著提高 CNN 网络的性能,这种方法可以应用在计算机视觉等多个领域。
Dec, 2016
本文提出了一种新的多头自注意力视觉转换器(ViT)框架,通过使用残差连接的概念累积多头注意力块中的最佳注意力输出,从而在生物医学图像分类方面取得了显着的进展,并在两个小数据集上进行了评估:(i)血细胞分类数据集和(ii)使用脑 MRI 图像进行脑肿瘤检测。结果表明该框架较传统 ViT 和其他基于卷积的最先进分类模型具有更好的分类性能。
Jun, 2023