Nov, 2022

EfficientTrain: 探索通用课程学习,以培训视觉主干

TL;DR本文提出一种新的课程学习方法,以高效训练视觉骨干(例如视觉变换器)。该方法利用深度网络的内在学习动态,实现在训练早期仅学习每个样例中更容易学习的部分,逐渐增加难度。通过在输入的 Fourier 频谱中引入裁剪操作,本方法可以更高效地学习低频信息,并通过减弱数据增强以暴露原始图像特征,设计了一种课程学习计划。结果表明,此方法简单、通用、有效,可以在不损失准确性的情况下,在 ImageNet-1K/22K 上将多种流行模型(例如 ResNet、ConvNeXt、DeiT、PVT、Swin 和 CSWin)的训练时间缩短 > 1.5 倍。