EfficientTrain++:高效视觉主干训练的广义课程学习
本文提出一种新的课程学习方法,以高效训练视觉骨干(例如视觉变换器)。该方法利用深度网络的内在学习动态,实现在训练早期仅学习每个样例中更容易学习的部分,逐渐增加难度。通过在输入的 Fourier 频谱中引入裁剪操作,本方法可以更高效地学习低频信息,并通过减弱数据增强以暴露原始图像特征,设计了一种课程学习计划。结果表明,此方法简单、通用、有效,可以在不损失准确性的情况下,在 ImageNet-1K/22K 上将多种流行模型(例如 ResNet、ConvNeXt、DeiT、PVT、Swin 和 CSWin)的训练时间缩短 > 1.5 倍。
Nov, 2022
本研究分析了课程学习对深度神经网络训练的影响,使用转移学习和自举法解决难度排序问题,以及不同的步伐函数指导采样,并最终证明其有效地修改了优化模型的全局最小解。
Apr, 2019
EfficientCL 是一种内存高效的持续预训练方法,通过对比学习和新颖的数据增强和课程学习来实现。在 GLUE 基准测试上,与基准模型相比,该模型的表现更好,尤其是在句子级任务上,并且只需要与基准模型相比仅有 70% 的计算内存。
Sep, 2021
该论文提出了一种基于课程学习的弱监督学习方法,通过对大规模网络图像数据进行无人工标注的深度神经网络训练,实现对大量噪声数据和数据分布不均等问题的有效处理和噪声标签的负面影响的显著降低,构建一种新的课程学习架构,使得使用高噪声标签的图像作为一种正则化策略可以惊人地提高模型的泛化能力,在 WebVision、ImageNet、Clothing-1M 和 Food-101 等四个基准测试中取得了最先进的性能,多模型集成的结果在 1000 种类别分类中取得了 5.2% 的 top-5 错误率,相对误差率超过 50%。
Aug, 2018
本文针对在随机梯度下降优化凸线性回归损失时的课程学习进行了理论研究,并探讨了在训练卷积神经网络时如何通过迁移学习推断课程学习。实验证明,理论与实践表现相似,课程学习能够有效地提升模型的泛化性能,并对异常情况拥有鲁棒性。
Feb, 2018
本文研究了使用课程学习策略获得更好、更快地训练深度神经网络的方法,尝试不同的采样和跳帧变种,发现在 KITTI-MOTS 挑战中使用逆序的采样策略表现更好,而在训练时渐进跳帧则只有在使用真实的蒙版进行训练时才有益。
Aug, 2020
提出了一种用于大型语言模型预训练的不可约课程算法,通过模拟训练轨迹中的样本损失,以提高学习性,实验证明在各个领域中都能提高验证困惑度,并且降低网络的尖锐度,在 MMLU 基准上表现出更好的 5-shot 准确度。
Oct, 2023
本文提出了三种新的课程学习策略,通过使用现有技术的图片难度预测器估计难度分数,分别将训练集图片分成逐渐困难的批次、为判别器引入考虑真实图片难度分数的课程损失函数以及从不断进化的分布中采样易于处理的图像,实验证明相较于传统的训练方法,在图像生成和转换任务中,这些策略能更快地收敛且产生更好的结果,例如使用最佳课程学习策略训练的经过谱归一化的 GANs 在 CIFAR 图像生成任务中,能以 25.0% 的比例成功欺骗人类标注者,而使用传统训练方法的 GANs 只有 18.4%,类似地,在图像转换中,使用课程学习训练的 CycleGAN 喜好程度为 40.5%,而基于传统训练的 CycleGAN 只有 19.8%,39.7% 的情况被视为平局。
Oct, 2019
该论文提出一种自适应的进阶学习自动化方案 (AutoProg),通过在训练过程中自适应决定模型的生长量、生长位置以及生长方式等策略,从而使得模型的训练能够快速加速,且不会出现性能下降。通过 DeiT 和 VOLO 等模型在 ImageNet 上的大量实验表明,AutoProg 能够将模型的训练加速高达 85.1%。
Mar, 2022
本篇论文提出了一种新的方法,通过评估学习进程来自动化选择神经网络学习课程,从而最大化学习效率。通过提供来自学习进展指标的信号以激励非静态多臂赌博机算法来的确定随机教学计划。对于 3 个课程上的 LSTM 网络的实验结果表明,我们的方法可以显著加快学习速度,在某些情况下,将实现令人满意的性能水平所需的时间减半。
Apr, 2017