深度神经网络中连续学习的序参量和相变

Jul, 2024

深度神经网络中连续学习的序参量和相变

Order parameters and phase transitions of continual learning in deep neural networks

Haozhe Shan, Qianyi Li, Haim Sompolinsky

TL;DR连续学习（CL）是指动物在学习新任务时不会抹去之前的知识。对于人工神经网络中的CL来说，灾难性遗忘是一个挑战，即新学习会对旧任务的表现产生负面影响。本研究提出了一种深度、宽度神经网络中CL的统计力学理论，并通过数值评估验证了如何捕捉任务关系和网络体系结构对遗忘和知识转移的影响。研究发现，任务间的输入和规则相似性对CL的性能有不同的影响。此外，理论预测增加网络深度可以有效降低任务之间的重叠，从而减少遗忘。对于具有任务特定输出的网络，该理论确定了一个相变点，当任务之间的相似性降低时，CL的性能会发生显著变化。低相似性会导致灾难性前行干扰，即网络可以完美地保留旧任务，但无法推广新学习。我们的研究结果揭示了影响CL性能的重要因素，并提出了避免遗忘的策略。

Abstract

continual learning (CL) enables animals to learn new tasks without erasing prior knowledge. CL in artificial neural networks (NNs) is challenging due to →

发现论文，激发创造

存储感知突触: 学习何时（不）遗忘

本文提出了一个新的生命周期学习的方法，命名为记忆感知突触 (Memory Aware Synapses)，它计算神经网络参数的重要性，并根据重要性进行惩罚以防止重要知识被覆盖，这与大脑学习过程的 Hebb 规则有相关性。在物体识别任务和嵌入学习任务中，该方法表现出最先进的性能。

Nov, 2017

理解连续学习中训练策略的作用

通过研究不同的训练规则，如dropout、学习率衰减和batch size等，以形成训练模式，从而扩大任务的局部极小值，在帮助神经网络避免灾难性遗忘方面提供了实用的见解。

Jun, 2020

循环神经网络中的持续学习

本文针对循环神经网络(RNNs)顺序数据的连续学习(CL)方法进行了全面评估，发现了应用权重重要性方法时的特殊性，并提出了一种基于超级网络的正则化方法，有效解决了RNNs上的连续学习问题。

Jun, 2020

基于统计力学的教师-学生网络连续学习中的灾难性遗忘分析

本研究利用师生学习理论框架分析了连续学习训练中避免“灾难性遗忘”的问题，发现输入分布相似性小和目标函数的输入输出关系相似性大时，可以有效避免“灾难性遗忘”，研究结果还揭示了一种特征现象称为超调现象。

May, 2021

教师-学生设置下的持续学习：任务相似性的影响

研究在老师-学生设置下深度神经网络中的连续学习，通过探究老师之间的相互作用关系，发现任务相似性在中间层与特征层之间存在复杂的相互作用，会对初始遗忘转移率、最大遗忘转移率以及长期遗忘转移率产生影响。这些结果有助于阐明导致灾难性遗忘的多种因素。

Jul, 2021

神经网络中应用参数重用克服灾难性遗忘

本文提出了一种名为AdaptCL的自适应学习方法，该方法通过参数再利用和增长来克服灾难性遗忘，并允许积极的后向传递，同时不需要数据集标签。

Jul, 2022

连续学习是否平等遗忘所有参数？

本文针对持续学习过程中的分布漂移（如任务或领域漂移）导致神经网络对原有任务的忘记问题，研究了神经网络中哪些模块更容易被遗忘，提出了遗忘优先微调（FPF）和基于周期触发的$k$-FPF两种方法，取得了较好的效果并显著降低了计算成本。实验表明，FPF方法在几个增量CL基准测试中均能显著提高方法效果，$k$-FPF进一步提高了效率而不降低准确性。

Apr, 2023

持续学习中参数隔离的保证

深度学习中的灾难性遗忘及其关联算法的几何性质研究和保证

Oct, 2023

TriRE: 持续知识保留和推进的多机制学习范式

借鉴大脑同时利用多种机制的方式，我们提出了TriRE，一种新的持续学习范式，它包括保留每个任务最突出的神经元，修订和巩固当前和过去任务的提取知识，以及通过回溯和重新学习促进次要活跃神经元用于后续任务。在持续学习设置中，TriRE显著减少了任务干扰，并超过了考虑独立评估的不同持续学习方法。

Oct, 2023

基于统计物理和控制理论的持续学习最优协议

本研究解决了人工神经网络在连续任务学习中遭遇灾难性遗忘的问题，通过将统计物理技术中的精确训练动态方程与最优控制方法相结合，提供了理论基础。主要成果是提出了一种任务选择协议的理论，能够在最大化性能的同时最小化遗忘，具有重要的实际应用潜力。

Sep, 2024