Mar, 2022

视觉 Transformer 对虚假相关性的鲁棒性研究

TL;DR在本文中,我们通过在三个具有挑战性的基准数据集上的实验,系统地研究了视觉变换器对于伪相关性的稳健性,并将其与受欢迎的 CNN 进行了比较。我们的研究表明,当在足够大的数据集上进行预训练时,视觉变换器比 CNN 更具稳健性。他们的成功关键在于能够更好地从不满足伪相关性的示例中进行泛化。此外,我们进行了大量消融和实验来理解自我关注机制在在伪相关环境下提供稳健性的作用,我们希望我们的工作可以启发未来进一步了解 ViT 模型的稳健性。