Jun, 2021

Transformed CNNs: 用自注意力机制重塑预训练卷积层

TL;DR本文研究在 Vision Transformers 与卷积神经网络之间构建混合模型时的计算瓶颈问题,探索采用卷积层进行初始化以达到更快的训练速度,得到的 Transformed CNN (T-CNN) 相比 CNN 在 ImageNet-1k 上有 2.2% top-1 和 ImageNet-C 上有 11% top-1 的性能提升,研究发现初始化 T-CNN 可以从部分训练的 CNN 开始进行,可以更快地达到高性能。