共组卷积 - 注意力图像变换器
本篇研究介绍了 CoAtNets,这是一种基于 transformers 和卷积神经网络的混合模型,能够在图像识别领域取得最好的效果,相较于传统的 transformers 和卷积神经网络具备更好的泛化性能和效率。
Jun, 2021
该论文提出了一种新颖的 Transformer 风格模块,即 Contextual Transformer (CoT) 块,它完全利用输入键之间的情境信息来指导动态注意力矩阵的学习,从而增强了视觉表示能力,可作为更强大的骨干网。
Jul, 2021
我们提出了一个简单的附加注意力模块,通过多阶段和跨尺度的相互作用,克服了 CNN 和 ViTs 在视觉任务中相互特征图之间的互动不足,从而显着提高了性能。
Aug, 2023
本文提出了一种多尺度类表示响应相似性分析(ClassRepSim)的 DNN 分析方法,通过该方法提出了一种基于关注凝结器(STAC)的注意力机制模块,将其应用于 ResNet 风格的架构中,实现了在 ImageNet64x64 数据集上比普通 ResNet 模型的 top-1 精度提升了 1.6%、比 SENet 模型的 top-1 精度提升了 0.5% 的结果。同时,还证明了该方法的结果可以用于有效地参数化 STAC 模块,而不需要进行大量的参数搜索。
Jun, 2023
本文提出了一种应对人物搜索中遮挡问题的算法,采用 Cascade Occluded Attention Transformer(COAT)的三阶段级联设计,并通过多项实验证明其成果达到了 state-of-the-art 的水平。
Mar, 2022
探索使用 Cross Attention 机制替代传统的 self-attention 机制在计算机视觉任务中实现 Transformer 的实用性,实验表明该机制在 ImageNet-1K、COCO 和 ADE20K 等任务上可以达到先进水平,并且降低了计算量。
Jun, 2021
本文提出了一种新的 Vision Transformer,Scale-Aware Modulation Transformer(SMT),通过结合卷积网络和视觉 Transformer,可以有效地处理多种下游任务;该模型提出了多头混合卷积模块(MHMC)和尺度感知聚合模块(SAA),并设计了 Evolutionary Hybrid Network(EHN)来提高泛化性。实验表明,SMT 在多种视觉任务中取得了优异的性能,特别是在物体检测方面,表现优于 Swin Transformer.
Jul, 2023
该研究通过在自我注意模块中引入先前知识 - 多尺度结构,提出了一种 Multi-Scale Transformer,其使用多尺度多头自我注意来捕捉来自不同尺度的特征,通过对 21 个数据集进行的实验结果表明,相对于标准 Transformer,在小型和中等型数据集上,该多尺度变压器始终具有显着性能优势。
Dec, 2019
本文介绍了基于交叉协方差矩阵的交叉协方差注意力(XCA),用于高分辨率图像的高效处理。文章基于 XCA 构建了交叉协方差图像变换器(XCiT),并在多个视觉基准测试中取得了优异的结果,包括 ImageNet-1k 上的图像分类和自监督特征学习,COCO 上的目标检测和实例分割以及 ADE20K 上的语义分割。
Jun, 2021
本文提出了一种名为 Dual-Branch Transformer 的模型,通过使用不同尺寸的图像块来获得更强的图像特征,进而学习多尺度特征表示,并采用交叉关注的方法进行多尺度特征的融合,使得计算复杂度得到控制,并在 ImageNet1K 数据集上实现了表现优于或与几个同时期的视觉转换器相当的结果。
Mar, 2021