深度网络训练中课程学习的威力
本文针对在随机梯度下降优化凸线性回归损失时的课程学习进行了理论研究,并探讨了在训练卷积神经网络时如何通过迁移学习推断课程学习。实验证明,理论与实践表现相似,课程学习能够有效地提升模型的泛化性能,并对异常情况拥有鲁棒性。
Feb, 2018
采用课程学习策略和稀疏样本可改善神经网络学习效率,对于一个混合了稀疏和密集输入的数据分布,采用应用在稀疏样本中的 curriculum noisy-GD/SGB 算法训练的 2 层 ReLU 神经网络可在有限的步数内学习到足够大次数的奇偶类型问题,而对于任何通过 noisy-GD/SGB 算法训练的神经网络,无论宽度或深度的大小,都需要额外的步骤才能学习,这可以通过理论和实验得出的结论加以支持。
Jun, 2023
本篇论文提出了一种新的方法,通过评估学习进程来自动化选择神经网络学习课程,从而最大化学习效率。通过提供来自学习进展指标的信号以激励非静态多臂赌博机算法来的确定随机教学计划。对于 3 个课程上的 LSTM 网络的实验结果表明,我们的方法可以显著加快学习速度,在某些情况下,将实现令人满意的性能水平所需的时间减半。
Apr, 2017
本文探讨了在神经检索模型训练中,如何通过对训练数据进行智能排序(即通过实行课程学习)来提高检索效率。作者利用大规模数据和会话响应排序任务,研究了如何确定难度以及如何过渡到更难的实例,取得了 2%的性能改进。
Dec, 2019
本文通过实验研究探究按难度排序训练的有效性,发现在标准测试数据集中,curricula 只有微弱的优势,证明其优势完全来自动态的训练集大小,同时发现在有限时间预算或数据存在噪声的情况下,curriculum 学习可以提高性能,而 anti-curriculum 则不能。
Dec, 2020
本文提出一种新的课程学习方法,以高效训练视觉骨干(例如视觉变换器)。该方法利用深度网络的内在学习动态,实现在训练早期仅学习每个样例中更容易学习的部分,逐渐增加难度。通过在输入的 Fourier 频谱中引入裁剪操作,本方法可以更高效地学习低频信息,并通过减弱数据增强以暴露原始图像特征,设计了一种课程学习计划。结果表明,此方法简单、通用、有效,可以在不损失准确性的情况下,在 ImageNet-1K/22K 上将多种流行模型(例如 ResNet、ConvNeXt、DeiT、PVT、Swin 和 CSWin)的训练时间缩短 > 1.5 倍。
Nov, 2022
本文研究从结构化数据和文本对中选择训练样本以优化 CURRICULUM LEARNING,并提出了一种软编辑距离度量方法,实验表明,该方法能够提高训练速度和性能。
Feb, 2021
本文研究了课程学习对长短期记忆 (LSTM) 网络的影响,其中包括情感分析任务和与自然语言处理中序列预测任务相似的合成任务。实验表明,课程学习对 LSTM 的内部状态有积极影响,可以帮助构建有建设性的表示,特别是在训练数据有限的情况下可以发挥更大的作用。此外,当使用课程学习时,模型的大小也会显著提高。
Nov, 2016