残差卷积演化关注机制

Feb, 2021

Evolving Attention with Residual Convolutions

Yujing Wang, Yaming Yang, Jiangang Bai, Mingliang Zhang, Jing Bai...

TL;DR本文提出一种基于演化注意力的新型通用机制，通过残差连接实现前一层的注意力指导后一层，并采用卷积层来建模对注意力图的演化过程，在多个任务上显著提高了性能。

Abstract

transformer is a ubiquitous model for natural language processing and has attracted wide attentions in computer vision. The attention maps are indispensable for a →

transformer attention maps evolving attention residual connections performance improvement

发现论文，激发创造

将残差和归一化层引入掩码语言模型分析中

通过全面分析 Transformer 架构（多头注意力、残差连接和层归一化）来研究其性能表现，发现中间表示的交互通过注意力执行的作用比先前假定的要小，并提供了新的直观解释。

Sep, 2021

ReViT: 增强视觉变压器的注意力残差连接用于视觉识别

通过引入新的残差注意力学习方法来改善 Vision Transformer (ViT) 架构，包括增加视觉特征多样性和模型的鲁棒性，以提高识别系统的准确性。在五个图像分类基准测试中，通过对 ImageNet1k、CIFAR10、CIFAR100、Oxford Flowers-102 和 Oxford-IIIT Pet 数据集的评估，显示出所提方法的有效性和鲁棒性。此外，该方法在 COCO2017 数据集上的实验表明，在空间感知转换器模型中实现时，能发现和整合目标检测和目标实例分割的语义和空间关系。

Feb, 2024

RealFormer: 喜欢残差注意力的 Transformer

提出了一种名为 RealFormer 的技术，可以创建残差注意力层的 Transformer 网络，并在许多任务上显著优于标准 Transformer 及其变体。该技术不仅稳定了训练，而且还可以导致具有更少注意力的模型，并提供了预训练检查点。

Dec, 2020

Transformed CNNs: 用自注意力机制重塑预训练卷积层

本文研究在 Vision Transformers 与卷积神经网络之间构建混合模型时的计算瓶颈问题，探索采用卷积层进行初始化以达到更快的训练速度，得到的 Transformed CNN (T-CNN) 相比 CNN 在 ImageNet-1k 上有 2.2% top-1 和 ImageNet-C 上有 11% top-1 的性能提升，研究发现初始化 T-CNN 可以从部分训练的 CNN 开始进行，可以更快地达到高性能。

Jun, 2021

残差注意力网络用于图像分类

通过引入注意力机制，在端到端的训练过程中将其与最先进的前馈网络结构相结合，我们提出了一种卷积神经网络模型 “Residual Attention Network”，并在 CIFAR-10、CIFAR-100 和 ImageNet 三个基准数据集上实现了最佳的物体识别表现。

Apr, 2017

全局关注：用于序列到序列预测的二维卷积神经网络

通过使用基于卷积神经网络而非 encoder-decoder 结构的方法，每一层在输出序列上重新编码源标记，我们的模型在参数更少的情况下表现出色，优于现有的机器翻译系统。

Aug, 2018

注意力增强卷积网络

本文针对使用卷积操作在视觉任务中只关注局部局部信息、缺乏全局信息的不足，提出运用自注意力机制对视觉任务进行处理的方法；通过在图像分类和目标检测任务中实现卷积和自注意力的融合，可有效提高模型精度。

Apr, 2019

Transformer 层的神经 ODE 解释

本文提出了一种修改 Transformer 层内部结构的方法，将多头注意力子层和 MLP 子层并行布置，并且结合使用神经 ODE 求解器的高级积分方案，提高了 Transformer 网络在多个任务中的性能。

Dec, 2022

更关注注意力：通过注意力迁移改善卷积神经网络的性能

本篇研究展示了，通过正确地定义卷积神经网络中的注意力机制，可以将强大的老师网络的注意力图传递给学生网络，从而显著提高 CNN 网络的性能，这种方法可以应用在计算机视觉等多个领域。

Dec, 2016

一种具有自注意力残差的新型视觉 Transformer 用于生物医学图像分类

本文提出了一种新的多头自注意力视觉转换器（ViT）框架，通过使用残差连接的概念累积多头注意力块中的最佳注意力输出，从而在生物医学图像分类方面取得了显着的进展，并在两个小数据集上进行了评估：（i）血细胞分类数据集和（ii）使用脑 MRI 图像进行脑肿瘤检测。结果表明该框架较传统 ViT 和其他基于卷积的最先进分类模型具有更好的分类性能。

Jun, 2023