共组卷积 - 注意力图像变换器 | BriefGPT

ICCVApr, 2021

共组卷积 - 注意力图像变换器

Co-Scale Conv-Attentional Image Transformers

Weijian Xu, Yifan Xu, Tyler Chang, Zhuowen Tu

TL;DR本文提出了一种基于变压器的图像分类器 Co-scale conv-attentional image Transformers (CoaT)，它具有多尺度和上下文建模能力，其中的 co-scale 和卷积注意机制可以帮助实现表示和通信，且在 ImageNet 数据集上的分类表现优于同样大小的卷积神经网络和图像 / 视觉变压器，可用于下游的计算机视觉任务。

Abstract

In this paper, we present co-scale conv-attentional image transformers (CoaT), a transformer-based image classifier equipped with co-scale and conv-attentional mechanisms. First, the →

co-scale conv-attentional image transformers transformer-based image classifier co-scale mechanism conv-attentional mechanism multi-scale contextual modeling

发现论文，激发创造

CoAtNet：结合卷积和注意力处理不同数据尺寸

本篇研究介绍了 CoAtNets，这是一种基于 transformers 和卷积神经网络的混合模型，能够在图像识别领域取得最好的效果，相较于传统的 transformers 和卷积神经网络具备更好的泛化性能和效率。

Jun, 2021

针对视觉识别的上下文转换网络

该论文提出了一种新颖的 Transformer 风格模块，即 Contextual Transformer (CoT) 块，它完全利用输入键之间的情境信息来指导动态注意力矩阵的学习，从而增强了视觉表示能力，可作为更强大的骨干网。

Jul, 2021

多阶段跨尺度注意力的视觉骨干增强

我们提出了一个简单的附加注意力模块，通过多阶段和跨尺度的相互作用，克服了 CNN 和 ViTs 在视觉任务中相互特征图之间的互动不足，从而显着提高了性能。

Aug, 2023

通过多尺度类别表征响应相似性分析系统化构建尺度转换关注凝聚 DNN 的架构设计

本文提出了一种多尺度类表示响应相似性分析（ClassRepSim）的 DNN 分析方法，通过该方法提出了一种基于关注凝结器（STAC）的注意力机制模块，将其应用于 ResNet 风格的架构中，实现了在 ImageNet64x64 数据集上比普通 ResNet 模型的 top-1 精度提升了 1.6%、比 SENet 模型的 top-1 精度提升了 0.5% 的结果。同时，还证明了该方法的结果可以用于有效地参数化 STAC 模块，而不需要进行大量的参数搜索。

Jun, 2023

级联变换器用于端到端的人员搜索

本文提出了一种应对人物搜索中遮挡问题的算法，采用 Cascade Occluded Attention Transformer（COAT）的三阶段级联设计，并通过多项实验证明其成果达到了 state-of-the-art 的水平。

Mar, 2022

CAT: 视觉 Transformer 中的交叉注意力

探索使用 Cross Attention 机制替代传统的 self-attention 机制在计算机视觉任务中实现 Transformer 的实用性，实验表明该机制在 ImageNet-1K、COCO 和 ADE20K 等任务上可以达到先进水平，并且降低了计算量。

Jun, 2021

尺度感知调制结合 Transformer

本文提出了一种新的 Vision Transformer，Scale-Aware Modulation Transformer（SMT），通过结合卷积网络和视觉 Transformer，可以有效地处理多种下游任务；该模型提出了多头混合卷积模块（MHMC）和尺度感知聚合模块（SAA），并设计了 Evolutionary Hybrid Network（EHN）来提高泛化性。实验表明，SMT 在多种视觉任务中取得了优异的性能，特别是在物体检测方面，表现优于 Swin Transformer.

Jul, 2023

文本分类的多尺度自注意力

该研究通过在自我注意模块中引入先前知识 - 多尺度结构，提出了一种 Multi-Scale Transformer，其使用多尺度多头自我注意来捕捉来自不同尺度的特征，通过对 21 个数据集进行的实验结果表明，相对于标准 Transformer，在小型和中等型数据集上，该多尺度变压器始终具有显着性能优势。

Dec, 2019

XCiT: 跨协方差图像变换器

本文介绍了基于交叉协方差矩阵的交叉协方差注意力（XCA），用于高分辨率图像的高效处理。文章基于 XCA 构建了交叉协方差图像变换器（XCiT），并在多个视觉基准测试中取得了优异的结果，包括 ImageNet-1k 上的图像分类和自监督特征学习，COCO 上的目标检测和实例分割以及 ADE20K 上的语义分割。

Jun, 2021

CrossViT: 跨注意力多尺度视觉 Transformer 用于图像分类

本文提出了一种名为 Dual-Branch Transformer 的模型，通过使用不同尺寸的图像块来获得更强的图像特征，进而学习多尺度特征表示，并采用交叉关注的方法进行多尺度特征的融合，使得计算复杂度得到控制，并在 ImageNet1K 数据集上实现了表现优于或与几个同时期的视觉转换器相当的结果。

Mar, 2021