Dec, 2023

通过硬补丁挖掘引导掩蔽视觉建模

TL;DR通过引入一个辅助损失预测器和一个逐渐引导训练过程的易难遮罩策略,我们提出了 Hard Patches Mining (HPM) 方法来增强模型作为教师的能力,通过预测基于补丁的损失并确定遮罩的位置,从而显著改进了图像和视频的基准性能,并验证了确定难以重建的位置对于更好的表示的有效性。