宽神经网络的遗忘相对较少
探究现代神经网络机器学习模型在不同任务训练后的“灾难性遗忘”问题,发现以dropout算法为代表的梯度训练算法可以最好地适应新任务并记住旧任务,而不同任务间的关系会显著影响激活函数表现,建议激活函数选择交叉验证。
Dec, 2013
研究神经网络在单分类任务训练中的学习动态,发现在缺乏明显分布偏移的数据情况下,存在相关遗忘现象,某些样例更容易被遗忘,而基于遗忘动态可以从训练数据集中省略部分例子却仍能保持最佳泛化性能。
Dec, 2018
本文提出了一个用于处理深度神经网络中的灾难性遗忘问题的概念简单、通用且有效的框架,通过优化神经结构和参数学习等两个组件,不仅可以直观有意义地演化神经结构,而且在实验证明了该方法具有很强的缓解灾难性遗忘问题的能力,此方法在连续学习的设置下,优于MNIST、CIFAR100和Visual Domain Decathlon数据集上的所有基线。
Mar, 2019
通过研究不同的训练规则,如dropout、学习率衰减和batch size等,以形成训练模式,从而扩大任务的局部极小值,在帮助神经网络避免灾难性遗忘方面提供了实用的见解。
Jun, 2020
本研究利用师生学习理论框架分析了连续学习训练中避免“灾难性遗忘”的问题,发现输入分布相似性小和目标函数的输入输出关系相似性大时,可以有效避免“灾难性遗忘”,研究结果还揭示了一种特征现象称为超调现象。
May, 2021
本文提出了两种生物启发机制,基于稀疏性和异构dropout,显著提高了连续学习者在长时间序列任务中的表现,并在多项基准连续学习问题上展示了重大的性能提升。
Mar, 2022
本文针对持续学习过程中的分布漂移(如任务或领域漂移)导致神经网络对原有任务的忘记问题,研究了神经网络中哪些模块更容易被遗忘,提出了遗忘优先微调(FPF)和基于周期触发的$k$-FPF两种方法,取得了较好的效果并显著降低了计算成本。实验表明,FPF方法在几个增量CL基准测试中均能显著提高方法效果,$k$-FPF进一步提高了效率而不降低准确性。
Apr, 2023
深度神经网络在各种环境中表现出前沿的性能,但在按顺序训练新任务时往往会出现“灾难性遗忘”。本研究设计了一个框架来分析连续学习理论,并证明网络宽度与遗忘之间存在直接关系。具体而言,我们证明增加网络宽度以减少遗忘产生递减的效果,我们在以前的研究中未曾探索过的宽度范围上通过实验证实了我们理论的预测,清晰地观察到这种递减效果。
Mar, 2024
研究探讨了模型大小对在线持续学习性能的影响,重点研究了灾难性遗忘。使用不同大小的ResNet架构,研究了网络深度和宽度对使用SplitCIFAR-10数据集进行逐步学习的模型性能的影响。研究结果表明,更大的模型并不能保证更好的持续学习性能;事实上,在适应新任务时,它们经常在在线环境中更加困难。这些结果挑战了更大的模型本质上缓解灾难性遗忘的观点,突显了模型大小和持续学习效果之间的微妙关系。该研究在持续学习场景中对模型可伸缩性及其实际影响做出了更深入的理解。
Jun, 2024