ICLRFeb, 2022

自监督视觉预训练的损坏图像建模

TL;DR本篇论文介绍了 Corrupted Image Modeling (CIM) 用于图像自监督预训练,通过使用额外的生成器和小型可训练 BEiT 对输入图像进行损坏来实现,而不是使用人工 MASK 令牌,并在训练后可以将增强器用作下游任务的高容量视觉编码器。CIM 是一种通用且灵活的视觉预训练框架,适用于各种网络结构,使用非 Siamese 框架首次证明了 ViT 和 CNN 都可以学习到丰富的视觉表示,并在图像分类和语义分割方面取得了令人满意的结果。