ICLRJun, 2022

自监督视觉预训练的掩码频率建模

TL;DR本文提出了一种基于频域的自监督预训练的方法,称作 Masked Frequency Modeling(MFM),通过在图像的频率分量上进行遮蔽,并预测其丢失的频率信息来学习图像的表示,实验证明该方法在图像分类、语义分割以及鲁棒性测试方面的性能优于其他最近的基于遮蔽的图像建模方法。此外,本文还全面调查了传统图像恢复任务对于从频域角度进行表示学习的有效性,并揭示了它们与 MFM 方法之间的有趣关系。