CVPRMay, 2021

走向强健的视觉 Transformer

TL;DR研究发现,很多 ViT 组件对鲁棒性有害,因此提出使用鲁棒组件构建 Robust Vision Transformer(RVT)网络,并进一步提出 position-aware attention scaling 和 patch-wise augmentation 两种方法增强其性能,实验结果显示 RVT 在多项鲁棒性测试中表现优秀。