May, 2022

架构无关的遮蔽图像建模 -- 从 ViT 回到 CNN

TL;DR本文提出了一种基于蒙版图像建模的框架,即 A^2MIM,可用于 Transformers 和 CNNs 网络,通过对补丁之间的相互作用的研究发现蒙版图像建模实质上教授了模型更好地处理中阶交互和提取通用特征的能力,并通过大量实验证明了该方法在不需要显式设计的情况下学习到更好的表示,并赋予骨干模型更强的能力,以适应于不同的下游任务。