探索自注意力在图像识别中的应用

CVPRApr, 2020

探索自注意力在图像识别中的应用

Exploring Self-attention for Image Recognition

Hengshuang Zhao, Jiaya Jia, Vladlen Koltun

TL;DR本文研究探索了自注意力在图像识别模型中的应用，比较了两种形式的自注意力（分别为成对自注意力和区域自注意力）与卷积神经网络在图像识别上的表现，并发现自注意力网络对于学习稳健的表征具有明显的优势。

Abstract

Recent work has shown that self-attention can serve as a basic building block for image recognition models. We explore variations of self-attenti

self-attention image recognition models pairwise self-attention patchwise self-attention convolutional baselines

发现论文，激发创造

注意力增强卷积网络

本文针对使用卷积操作在视觉任务中只关注局部局部信息、缺乏全局信息的不足，提出运用自注意力机制对视觉任务进行处理的方法；通过在图像分类和目标检测任务中实现卷积和自注意力的融合，可有效提高模型精度。

Apr, 2019

视觉模型中的独立自注意力

通过使用自注意力替换空间卷积操作，得出了一个完全的自注意力模型，该模型相比于基线 ImageNet 分类任务具有 12％更少的 FLOPS 和 29％更少的参数，而在 COCO 目标检测方面，与基线 RetinaNet 匹配的 mAP，但具有 39％更少的 FLOPS 和 34％更少的参数。

Jun, 2019

自注意力与卷积层之间的关系

本研究表明防止卷积操作而采用自注意层可以获得与卷积层相同的表现，这提供了一种证明多头自注意层与卷积层至少具有相同表征能力的方法。

Nov, 2019

当医学影像遇上自注意力机制：一段并未很成功的爱情故事

通过在医学图像上扩展卷积神经网络结构，研究了自注意机制的应用，发现仅仅加入自注意机制并不能提升现有的完全卷积方法的性能。

Apr, 2024

自注意力和卷积的融合

本文指出卷积和自注意力之间存在强烈的联系，两个模型的第一阶段都包含了相似的运算，本文提出了 ACmix 模型将它们混合使用从而最小化计算成本，实验结果表明，该模型在图像识别和 Downstream 任务上均取得了显著的改进。

Nov, 2021

利用注意力机制进行基于补丁的生物医学图像分类

医学图像分析可以通过一种扎根于自注意机制的创新架构得到促进。传统的卷积神经网络（CNN）在捕捉像素级复杂空间和时间关系时需要帮助，而其卷积窗口的固定大小限制了输入波动。为了克服这些限制，我们提出了基于注意力模型而非卷积的新范式。这些模型作为传统 CNN 的替代品，表现出强大的建模能力和高效获取全局长范围上下文信息的能力。通过将非重叠（vanilla patching）和新颖的重叠移位补丁技术（S.P.T.s）相结合，我们的工作提供了一种解决注意力视觉模型所面临的关键挑战的方法，包括归纳偏差、权重共享、感受野限制和高分辨率数据处理。此外，我们还研究了适应不同图像尺寸到更高分辨率的新颖 Lancoz5 插值技术。实验证据验证了我们模型的一般化效果，并与现有方法进行了有利比较。特别是在充足数据的情况下，基于注意力的方法特别有效，尤其是在集成先进的数据增强方法来增强它们的鲁棒性时。

Apr, 2024

自注意力在医学图像分析中的效果研究

本文全面比较了各种最先进的自注意机制在多个医学图像分析任务中的效果，并通过定量、定性和临床用户调查，旨在深入了解自注意在医学计算机视觉任务中的影响。

Sep, 2021

针对参数高效视觉骨干，扩大局部自注意力的规模

该论文研究了自注意力在计算机视觉领域的应用，并提出了两种改进模型的方法，使其在速度、内存使用和准确性等方面优于传统的卷积模型，进而提出了一种名为 HaloNets 的新的自注意力模型家族，并在 ImageNet 分类基准测试中取得了最先进的准确性。

Mar, 2021

仿射自卷积

使用数据相关卷积和注意力机制，提出了一种特殊的自注意力网络模型，称之为 Affine Self Convolution，并在 CIFAR10 和 CIFAR100 数据集上进行了评估，结果显示该模型在减少参数数量的同时，在测试时获得了与基线模型相当或更高的准确率。

Nov, 2019

图像分类的明确建模注意力图

本文介绍了一种新的自我注意力模块，使用一种明确建模的注意力映射，利用几何先验来提高图像分类的准确性，实验证明该方法在 ImageNet ILSVRC 中的准确性提升了 2.2%，在参数和计算量分别减少 6.4% 和 6.7% 的情况下，相对于 AA-ResNet152 准确率提高了 0.9%。

Jun, 2020