ECCVMar, 2022

学生不应看到的内容:基于注意力引导的遮蔽图像建模

TL;DR本文阐述了在计算机视觉领域中采用 Transformer 和掩蔽语言模型的新趋势,即视觉 Transformer 和掩蔽的图像建模 (MIM)。我们认为,在 MIM 中,图像记号掩蔽与文本中的掩蔽不同,因为它们之间的记号数量和相关性不同。为了为 MIM 生成一个具有挑战性的预文本任务,我们提出了一种从随机掩蔽到知情掩蔽的转变。我们在基于蒸馏的 MIM 的上下文中开发并展示了这个思想,其中教师 Transformer 编码器生成关注图,该图我们用于指导学生的掩蔽。因此,我们引入了一种新的掩蔽策略,称为注意力引导掩蔽 (AttMask),并证明了它在密集的基于蒸馏的 MIM 以及分类记号的普通基于蒸馏的自监督学习上比随机掩蔽效果更好。我们确认,AttMask 加速了学习过程并在各种下游任务中提高了性能。我们在此 https URL 提供了实现代码。