深度神经网络在各种环境中表现出前沿的性能,但在按顺序训练新任务时往往会出现 “灾难性遗忘”。本研究设计了一个框架来分析连续学习理论,并证明网络宽度与遗忘之间存在直接关系。具体而言,我们证明增加网络宽度以减少遗忘产生递减的效果,我们在以前的研究中未曾探索过的宽度范围上通过实验证实了我们理论的预测,清晰地观察到这种递减效果。
Mar, 2024
本文介绍了 5 种减轻神经网络灾难性遗忘的机制(规则化,合成,彩排,双重记忆和稀疏编码)并提供了新的指标和基准来直接比较它们,实验结果表明,这些机制对于实现最佳性能而言是至关重要的,但难以完全解决灾难性遗忘问题。
Aug, 2017
深度学习中的灾难性遗忘及其关联算法的几何性质研究和保证
Oct, 2023
探究现代神经网络机器学习模型在不同任务训练后的 “灾难性遗忘” 问题,发现以 dropout 算法为代表的梯度训练算法可以最好地适应新任务并记住旧任务,而不同任务间的关系会显著影响激活函数表现,建议激活函数选择交叉验证。
Dec, 2013
通过研究不同的训练规则,如 dropout、学习率衰减和 batch size 等,以形成训练模式,从而扩大任务的局部极小值,在帮助神经网络避免灾难性遗忘方面提供了实用的见解。
Jun, 2020
本文提出了一个用于处理深度神经网络中的灾难性遗忘问题的概念简单、通用且有效的框架,通过优化神经结构和参数学习等两个组件,不仅可以直观有意义地演化神经结构,而且在实验证明了该方法具有很强的缓解灾难性遗忘问题的能力,此方法在连续学习的设置下,优于 MNIST、CIFAR100 和 Visual Domain Decathlon 数据集上的所有基线。
Mar, 2019
本研究利用师生学习理论框架分析了连续学习训练中避免 “灾难性遗忘” 的问题,发现输入分布相似性小和目标函数的输入输出关系相似性大时,可以有效避免 “灾难性遗忘”,研究结果还揭示了一种特征现象称为超调现象。
May, 2021
研究神经网络中的遗忘问题,提出了一种不同于以往的方法来解决该问题,且不会使用源域的信息,此方法在减少遗忘源域信息方面非常有效,同时实验表明使用该方法可以提高网络在识别率等方面的性能。
Jul, 2016
该论文提出一种基于拓扑感知的权重保留 (TWP) 模块的方案,该模块针对图神经网络 (GNNs) 的持续学习问题,通过探索输入图的局部结构,稳定在拓扑聚合中起关键作用的参数,防止网络遗忘先前学习的知识,并证明该模块在多个数据集上的性能优于现有技术。
Dec, 2020
研究了神经网络模型中遗忘问题的解决办法并提出了一种基于学习速率调整方法的连续学习模型,实现了在多个任务上获取并保留专业知识的能力。
Dec, 2016