Nov, 2021
视觉Transformer能否执行卷积?
Can Vision Transformers Perform Convolution?
TL;DR本文介绍视觉Transformer(ViT)在使用自注意力机制的基础上,探究其能否表达卷积操作,并证明使用输入图像块的单个ViT层可以构建任何卷积操作,其中多头注意机制和相对位置编码起着关键作用。作者还提供了Vision Transformer表达CNN所需头数的下限,该证明的构建可以帮助将卷积偏差注入Transformer,并在低数据环境下显著提高ViT的性能。