Sep, 2022

DMFormer:缩小 CNN 和 Vision Transformer 之间的差距

TL;DR本文提出了一种动态多级注意力机制 (DMA),它通过多个卷积核大小捕捉输入图像的不同模式,并通过门控机制实现输入自适应权重,然后提出了一种名为 DMFormer 的有效骨干网络,该网络采用了 DMA 替代了视觉变换器中的自我关注机制。在 ImageNet-1K 和 ADE20K 数据集上的广泛实验结果表明,DMFormer 具有先进的性能,优于大小相似的视觉变压器 (ViTs) 和卷积神经网络 (CNNs)。