诊断灾难：连续学习中的大部分准确性损失可归因于读出失调

Oct, 2023

诊断灾难：连续学习中的大部分准确性损失可归因于读出失调

Diagnosing Catastrophe: Large parts of accuracy loss in continual learning can be accounted for by readout misalignment

Daniel Anthes, Sushrut Thorat, Peter König, Tim C. Kietzmann

TL;DR在这篇论文中，我们研究了导致人工神经网络在变化的数据分布上训练后旧任务性能迅速下降的表征性变化，并确定了解释这一现象的三个不同过程。最主要的成分是隐藏表征与输出层之间的不对齐，这种不对齐是由于在其他任务上的学习造成的，它导致内部表征发生位移。表征几何在这种不对齐下部分保留，并且只有一小部分信息是无法恢复的。所有类型的表征性变化与隐藏表征的维度成比例。这些洞见对需要不断更新的深度学习应用具有重要的意义，同时也对将人工神经网络模型与相对稳健的生物视觉对齐有帮助。

Abstract

Unlike primates, training artificial neural networks on changing data distributions leads to a rapid decrease in performance on old tasks. This phenomenon is commonly referred to as catastrophic forgetting. In this paper, we investigate the →

catastrophic forgetting representational changes hidden representations readout layers misalignment

发现论文，激发创造

灾难性遗忘的解剖：隐藏的表示和任务语义

本研究探讨了机器学习系统中存在的灾难性遗忘问题，发现深层网络是导致遗忘的主要因素，并介绍了稳定深层网络的方法。实证分析表明，任务相似度与遗忘程度具有相关性。在标准的 split-CIFAR-10 设置上进行了实验，并引入了一个基于 CIFAR-100 的任务，近似实现了输入分布的转移，得到了一些有益的结论。

Jul, 2020

机器学习应用中的谈判表示以防止遗忘

机器学习中的灾难性遗忘是一个重要的挑战，本文提出了一种新的方法来防止机器学习应用中的灾难性遗忘，并展示了该方法在连续学习设置中提高神经网络性能的潜力。

Nov, 2023

神经网络中的灾难性遗忘测量

本文介绍了 5 种减轻神经网络灾难性遗忘的机制（规则化，合成，彩排，双重记忆和稀疏编码）并提供了新的指标和基准来直接比较它们，实验结果表明，这些机制对于实现最佳性能而言是至关重要的，但难以完全解决灾难性遗忘问题。

Aug, 2017

利用任务硬注意力克服灾难性遗忘

本文提出了一种基于任务的硬注意机制，利用随机梯度下降学习硬注意掩码来保留上一个任务中的信息而不影响当前任务的学习，有效提高神经网络在顺序学习能力上的性能。此方法对不同超参数的选择也具有鲁棒性，并且具有控制学习知识稳定性和紧凑性等特点，在在线学习或网络压缩应用中也是吸引人的。

Jan, 2018

深度学习中的灾难性遗忘：全面分类

近期深度学习模型在图像分类或生成等任务中取得了显著的性能，并经常超越人类的准确性。然而，它们在没有访问先前数据的情况下，学习新任务和更新知识可能会遇到困难，这导致了被称为灾难性遗忘的显著准确性损失。本文综述了关于使用梯度下降作为学习算法的现代深度学习模型中解决灾难性遗忘的最近研究，尽管已提出了多种解决方案，但尚未建立确定性的解决方案或关于评估灾难性遗忘的共识。本文对最近的解决方案进行了全面的评述，提出了一个分类法以组织这些解决方案，并明确了这一领域的研究空白。

Dec, 2023

梯度神经网络中灾难性遗忘的实证研究

探究现代神经网络机器学习模型在不同任务训练后的 “灾难性遗忘” 问题，发现以 dropout 算法为代表的梯度训练算法可以最好地适应新任务并记住旧任务，而不同任务间的关系会显著影响激活函数表现，建议激活函数选择交叉验证。

Dec, 2013

监督和无监督连续学习中的表示遗忘探究

通过对最优线性分类器表现的差异考虑 “表示忘却” 的概念，本研究重新审视了一些标准的连续学习基准，并观察到在没有任何明确控制忘却的情况下，模型表示通常会经历较小的表示忘却，并且有时可以与明确控制忘却的方法相当，尤其是在更长的任务序列中。我们还展示了表示忘却如何推动我们对于连续学习中模型容纳能力和损失函数影响的认识。基于这些结果，我们提出一个简单但是竞争力强的方法是，在构建旧样本的原型时，通过标准的有监督对比学习来不断地学习表示。

Mar, 2022

神经网络中的灾难性遗忘问题

研究了神经网络模型中遗忘问题的解决办法并提出了一种基于学习速率调整方法的连续学习模型，实现了在多个任务上获取并保留专业知识的能力。

Dec, 2016

宽神经网络的遗忘相对较少

这篇论文讨论了神经网络模型架构对于解决神经网络遗忘问题的影响，研究了模型宽度对于遗忘现象的意义，并从梯度正交性、稀疏和懒惰训练等角度探讨了神经网络学习动态以提供相应的解释。

Oct, 2021

模型更新过程中的灾难性遗忘

本文论述了如何在更新神经网络模型时减少深度学习模型遗忘前期知识的问题，从而减少新模型的训练成本，并介绍混合少量历史数据的数据彩排和弹性加权差异等方法以提高整体准确度。

Jun, 2023