CVPRDec, 2022

通过感知理解提高视觉表征学习

TL;DR本文介绍了一种基于 MAE 的扩展方法,通过引入感知相似度项和采用来自生成对抗网络领域的多级训练和自适应鉴别器增强等技巧,可以更好地重构像素并学习到更高级别的场景特征,进而在不使用其他预训练模型或数据的情况下,提高了图片分类等下游任务的性能,并在 ImageNet-1K 数据集上达到了 78.1% 的准确率。