ICCVApr, 2021

共组卷积 - 注意力图像变换器

TL;DR本文提出了一种基于变压器的图像分类器 Co-scale conv-attentional image Transformers (CoaT),它具有多尺度和上下文建模能力,其中的 co-scale 和卷积注意机制可以帮助实现表示和通信,且在 ImageNet 数据集上的分类表现优于同样大小的卷积神经网络和图像 / 视觉变压器,可用于下游的计算机视觉任务。