Jun, 2021
Transformed CNNs: 用自注意力机制重塑预训练卷积层
Transformed CNNs: recasting pre-trained convolutional layers with self-attention
Stéphane d'Ascoli, Levent Sagun, Giulio Biroli, Ari Morcos
TL;DR本文研究在 Vision Transformers 与卷积神经网络之间构建混合模型时的计算瓶颈问题,探索采用卷积层进行初始化以达到更快的训练速度,得到的 Transformed CNN (T-CNN) 相比 CNN 在 ImageNet-1k 上有 2.2% top-1 和 ImageNet-C 上有 11% top-1 的性能提升,研究发现初始化 T-CNN 可以从部分训练的 CNN 开始进行,可以更快地达到高性能。