Jun, 2021
当视觉Transformer在没有预训练或强数据增强的情况下优于ResNets
When Vision Transformers Outperform ResNets without Pretraining or
Strong Data Augmentations
TL;DR本文将ViTs和MLP-Mixers从损失几何的角度进行研究,旨在提高模型的数据效率和推理泛化能力,并通过锐度感知优化器来促进平滑性,以在包括有监督学习、对抗学习、对比学习和迁移学习在内的各种任务上显着提高ViTs和MLP-Mixers的准确性和鲁棒性。