Sep, 2023

CNN 还是 ViT?透过卷积再探视觉 Transformer

TL;DR本研究提出了一种新颖的高斯混合蒙版(GMM)方法,在没有预训练的情况下通过改进局部建模的方式来提升 Vision Transformer(ViT)在小数据集上的性能,实验证明该方法对于提升 ViT 的效果显著,几乎不增加额外参数或计算成本。