Apr, 2024

视觉Transformer中的结构化初始化注意力

TL;DR本文探讨了视觉transformer(ViT)网络在小规模数据集上的训练问题,提出了通过重新解释卷积神经网络(CNN)的架构偏差作为ViT的初始化偏差,使其在小规模问题上表现出色,并保持其在大规模应用中的灵活性,该方法在诸多基准数据集(包括CIFAR-10、CIFAR-100和SVHN)上实现了最先进的数据高效ViT学习性能。