Nov, 2021

视觉 Transformer 能否执行卷积?

TL;DR本文介绍视觉 Transformer (ViT) 在使用自注意力机制的基础上,探究其能否表达卷积操作,并证明使用输入图像块的单个 ViT 层可以构建任何卷积操作,其中多头注意机制和相对位置编码起着关键作用。作者还提供了 Vision Transformer 表达 CNN 所需头数的下限,该证明的构建可以帮助将卷积偏差注入 Transformer,并在低数据环境下显著提高 ViT 的性能。