Oct, 2023

TiC: 探索卷积中的视觉变换器

TL;DR通过结合 Self-Attention 与广义卷积(包括标准卷积、空洞卷积和深度卷积),Multi-Head Self-Attention Convolution (MSA-Conv) 扩展了 Transformer 模型,使其能够处理不同尺寸的图像,降低了计算成本,并且通过引入两种增强策略实现了长距离连接和扩大的感受野,而在图像分类任务中,Vision Transformer in Convolution (TiC) 利用了 MSA-Conv,在 ImageNet-1K 数据集上与目前最先进的方法具有可比性。