Jul, 2024

深度神经网络中连续学习的序参量和相变

TL;DR连续学习(CL)是指动物在学习新任务时不会抹去之前的知识。对于人工神经网络中的CL来说,灾难性遗忘是一个挑战,即新学习会对旧任务的表现产生负面影响。本研究提出了一种深度、宽度神经网络中CL的统计力学理论,并通过数值评估验证了如何捕捉任务关系和网络体系结构对遗忘和知识转移的影响。研究发现,任务间的输入和规则相似性对CL的性能有不同的影响。此外,理论预测增加网络深度可以有效降低任务之间的重叠,从而减少遗忘。对于具有任务特定输出的网络,该理论确定了一个相变点,当任务之间的相似性降低时,CL的性能会发生显著变化。低相似性会导致灾难性前行干扰,即网络可以完美地保留旧任务,但无法推广新学习。我们的研究结果揭示了影响CL性能的重要因素,并提出了避免遗忘的策略。