宽神经网络的遗忘相对较少

Oct, 2021

Wide Neural Networks Forget Less Catastrophically

Seyed Iman Mirzadeh, Arslan Chaudhry, Huiyi Hu, Razvan Pascanu, Dilan Gorur...

TL;DR这篇论文讨论了神经网络模型架构对于解决神经网络遗忘问题的影响，研究了模型宽度对于遗忘现象的意义，并从梯度正交性、稀疏和懒惰训练等角度探讨了神经网络学习动态以提供相应的解释。

Abstract

A growing body of research in continual learning is devoted to overcoming the "catastrophic forgetting" of neural networks by designing ne

发现论文，激发创造

梯度神经网络中灾难性遗忘的实证研究

探究现代神经网络机器学习模型在不同任务训练后的“灾难性遗忘”问题，发现以dropout算法为代表的梯度训练算法可以最好地适应新任务并记住旧任务，而不同任务间的关系会显著影响激活函数表现，建议激活函数选择交叉验证。

Dec, 2013

深度神经网络学习中示例遗忘的实证研究

研究神经网络在单分类任务训练中的学习动态，发现在缺乏明显分布偏移的数据情况下，存在相关遗忘现象，某些样例更容易被遗忘，而基于遗忘动态可以从训练数据集中省略部分例子却仍能保持最佳泛化性能。

Dec, 2018

学会成长：应对灾难性遗忘的连续结构学习框架

本文提出了一个用于处理深度神经网络中的灾难性遗忘问题的概念简单、通用且有效的框架，通过优化神经结构和参数学习等两个组件，不仅可以直观有意义地演化神经结构，而且在实验证明了该方法具有很强的缓解灾难性遗忘问题的能力，此方法在连续学习的设置下，优于MNIST、CIFAR100和Visual Domain Decathlon数据集上的所有基线。

Mar, 2019

理解连续学习中训练策略的作用

通过研究不同的训练规则，如dropout、学习率衰减和batch size等，以形成训练模式，从而扩大任务的局部极小值，在帮助神经网络避免灾难性遗忘方面提供了实用的见解。

Jun, 2020

基于统计力学的教师-学生网络连续学习中的灾难性遗忘分析

本研究利用师生学习理论框架分析了连续学习训练中避免“灾难性遗忘”的问题，发现输入分布相似性小和目标函数的输入输出关系相似性大时，可以有效避免“灾难性遗忘”，研究结果还揭示了一种特征现象称为超调现象。

May, 2021

基于神经激活空间零维度的稀疏性和异构丢失对连续学习的影响

本文提出了两种生物启发机制，基于稀疏性和异构dropout，显著提高了连续学习者在长时间序列任务中的表现，并在多项基准连续学习问题上展示了重大的性能提升。

Mar, 2022

连续学习是否平等遗忘所有参数？

本文针对持续学习过程中的分布漂移（如任务或领域漂移）导致神经网络对原有任务的忘记问题，研究了神经网络中哪些模块更容易被遗忘，提出了遗忘优先微调（FPF）和基于周期触发的$k$-FPF两种方法，取得了较好的效果并显著降低了计算成本。实验表明，FPF方法在几个增量CL基准测试中均能显著提高方法效果，$k$-FPF进一步提高了效率而不降低准确性。

Apr, 2023

持续学习中参数隔离的保证

深度学习中的灾难性遗忘及其关联算法的几何性质研究和保证

Oct, 2023

关于连续学习中宽度递减收益的研究

深度神经网络在各种环境中表现出前沿的性能，但在按顺序训练新任务时往往会出现“灾难性遗忘”。本研究设计了一个框架来分析连续学习理论，并证明网络宽度与遗忘之间存在直接关系。具体而言，我们证明增加网络宽度以减少遗忘产生递减的效果，我们在以前的研究中未曾探索过的宽度范围上通过实验证实了我们理论的预测，清晰地观察到这种递减效果。

Mar, 2024

模型大小对在线连续学习中灾难性遗忘的影响

研究探讨了模型大小对在线持续学习性能的影响，重点研究了灾难性遗忘。使用不同大小的ResNet架构，研究了网络深度和宽度对使用SplitCIFAR-10数据集进行逐步学习的模型性能的影响。研究结果表明，更大的模型并不能保证更好的持续学习性能；事实上，在适应新任务时，它们经常在在线环境中更加困难。这些结果挑战了更大的模型本质上缓解灾难性遗忘的观点，突显了模型大小和持续学习效果之间的微妙关系。该研究在持续学习场景中对模型可伸缩性及其实际影响做出了更深入的理解。

Jun, 2024