Oct, 2023

TiC:探索卷积中的视觉变换器

TL;DR通过结合Self-Attention与广义卷积(包括标准卷积、空洞卷积和深度卷积),Multi-Head Self-Attention Convolution (MSA-Conv) 扩展了Transformer模型,使其能够处理不同尺寸的图像,降低了计算成本,并且通过引入两种增强策略实现了长距离连接和扩大的感受野,而在图像分类任务中,Vision Transformer in Convolution (TiC) 利用了MSA-Conv,在ImageNet-1K数据集上与目前最先进的方法具有可比性。