CVPRJun, 2021

探究视觉 Transformer 在分布偏移下的泛化能力

TL;DR本文系统研究了 Vision Transformers 在分布偏移情况下的泛化问题,发现其在背景和纹理上学习的偏差较弱,而对形状和结构的归纳偏差较强,因此在分布偏移情况下,相对于卷积神经网络,具有更好的泛化性能,且使用相同数量的参数,其在大多数类型的分布偏移下,比相应的 CNN 模型高出 5% 以上的准确度。此外,作者还进一步提出了增强泛化性能的 GE-ViTs,其对超参数的敏感度高于相应的 CNN 模型,因此设计了更平滑的学习策略以优化 GE-ViTs 的性能。