BriefGPT.xyz
Ask
alpha
关键词
loss geometry
搜索结果 - 1
ICLR
当视觉 Transformer 在没有预训练或强数据增强的情况下优于 ResNets
本文将 ViTs 和 MLP-Mixers 从损失几何的角度进行研究,旨在提高模型的数据效率和推理泛化能力,并通过锐度感知优化器来促进平滑性,以在包括有监督学习、对抗学习、对比学习和迁移学习在内的各种任务上显着提高 ViTs 和 MLP-M
→
PDF
3 years ago
Prev
Next