ICLRJun, 2021

当视觉 Transformer 在没有预训练或强数据增强的情况下优于 ResNets

TL;DR本文将 ViTs 和 MLP-Mixers 从损失几何的角度进行研究,旨在提高模型的数据效率和推理泛化能力,并通过锐度感知优化器来促进平滑性,以在包括有监督学习、对抗学习、对比学习和迁移学习在内的各种任务上显着提高 ViTs 和 MLP-Mixers 的准确性和鲁棒性。