Mar, 2021

ConViT:利用软卷积归纳偏置提升视觉 Transformer 性能

TL;DR本文提出了一种形式的位置自注意力机制:门控位置自注意力,该机制能够同时具备卷积神经网络的空域学习和自注意力层的位置不变性。作者使用这种机制构建了名为 ConViT 的混合卷积 - 自注意力神经网络,通过在 ImageNet 数据集上的实验表明,该网络在图像分类任务上拥有优异的性能和更高的样本效率,并提高了对定位特征的注意力。