Sep, 2022
DMFormer:缩小CNN和Vision Transformer之间的差距
ConvFormer: Closing the Gap Between CNN and Vision Transformers
TL;DR本文提出了一种动态多级注意力机制(DMA),它通过多个卷积核大小捕捉输入图像的不同模式,并通过门控机制实现输入自适应权重,然后提出了一种名为DMFormer的有效骨干网络,该网络采用了DMA替代了视觉变换器中的自我关注机制。在ImageNet-1K和ADE20K数据集上的广泛实验结果表明,DMFormer具有先进的性能,优于大小相似的视觉变压器(ViTs)和卷积神经网络(CNNs)。