May, 2024

LookHere: 有向注意力的视觉 Transformer 进行泛化和外推

TL;DR我们提出了一种名为 LookHere 的新方法,用于限制 2D 注意力掩码中的固定视野的注意力头,提供平移等变性,确保注意力头的多样性,并限制注意力头在外推时面临的分布偏移,从而改善图像分类、对抗攻击和校准误差的性能。该方法在 ImageNet 数据集上进行了测试,结果显示 LookHere 在高分辨率图像分类任务中表现优于当前位置编码方法 2D-RoPE。