ICCVAug, 2023

通过减少模型能力浪费来改进基于像素的 MIM

TL;DR本文通过一系列实证研究确认了基于像素的遮罩图像建模存在的限制,并提出一种利用来自浅层的低级特征辅助像素重建的新方法。将该设计纳入基本方法 MAE 中,我们减少了基于像素的遮罩图像建模的建模能力浪费,提高了其收敛性并在多个下游任务中取得了实质性的改进。据我们所知,我们是首次系统研究多级特征融合在类似标准 Vision Transformer(ViT)的各向同性架构中的应用。值得注意的是,当应用于较小的模型(例如 ViT-S)时,我们的方法在微调、线性探测和语义分割等方面取得了显著的性能提升。代码和模型可在此 https 链接获得。