Sep, 2023

CNN还是ViT?透过卷积再探视觉Transformer

TL;DR本研究提出了一种新颖的高斯混合蒙版(GMM)方法,在没有预训练的情况下通过改进局部建模的方式来提升Vision Transformer(ViT)在小数据集上的性能,实验证明该方法对于提升ViT的效果显著,几乎不增加额外参数或计算成本。