ICCVMay, 2021

Conformer:局部特征耦合全局表示用于视觉识别

TL;DR本论文提出了一种名为 Conformer 的混合网络结构,利用卷积操作和 self-attention 机制进行增强表示学习,可最大程度地保留局部特征和全局表示,并通过实验证明,在可比较的参数复杂性下,Conformer 在 ImageNet 上优于 visual transformer(DeiT-B)2.3%,在 MSCOCO 上,相对于 ResNet-101,在目标检测和实例分割方面都优于它,具有成为通用主干网络的巨大潜力。