AAAIApr, 2022

通过检测不正确位置嵌入进行表示学习

TL;DR本文提出了一种名为 DILEMMA 的方法,通过使用自监督学习来提高图像表征的性能。该方法使用图像令牌来代表物体的部分,并训练一个 ViT 模型来检测人为移位的图像令牌,从而提高鲁棒性和训练速度,并通过在 ImageNet-1K 上进行线性探测转移,在 MoCoV3、DINO 和 SimCLR 模型中分别实现 4.41%,3.97%和 0.5%的性能提高。