neural network weights are typically initialized at random from univariate
distributions, controlling just the variance of individual weights even in
highly-structured operations like convolutions. Recent ViT-inspired
c
本文探讨了视觉 transformer(ViT)网络在小规模数据集上的训练问题,提出了通过重新解释卷积神经网络(CNN)的架构偏差作为 ViT 的初始化偏差,使其在小规模问题上表现出色,并保持其在大规模应用中的灵活性,该方法在诸多基准数据集(包括 CIFAR-10、CIFAR-100 和 SVHN)上实现了最先进的数据高效 ViT 学习性能。