克服多模型遗忘

Feb, 2019

Overcoming Multi-Model Forgetting

Yassine Benyahia, Kaicheng Yu, Kamil Bennani-Smires, Martin Jaggi, Anthony Davison...

TL;DR我们发现了一种现象，称之为多模型遗忘，它出现在序贯训练多个具有部分共享参数的深度网络时，以前训练的模型的性能随着优化下一个模型而降低，为了克服这个问题，我们引入了一种统计上可证明的权重可塑性损失，根据前面模型的重要性对模型的共享参数进行正则化学习，并证明了在训练两个模型时以及进行神经架构搜索时的有效性，将权重可塑性添加到神经架构搜索中可将最佳模型保存到搜索的末尾，并在自然语言处理和计算机视觉任务中获得了改进的结果。

Abstract

We identify a phenomenon, which we refer to as multi-model forgetting, that occurs when sequentially training multiple deep networks with partially-shared parameters; the performance of previously-trained models

multi-model forgetting deep networks weight plasticity loss neural architecture search natural language processing

发现论文，激发创造

解析神经网络可塑性丧失的原因

在神经网络的设计、初始化和优化的过程中，损失可塑性问题是一个关键因素。通过组合使用层归一化和权重衰减技术，可以在各种非平稳学习任务中有效地维持网络的可塑性，从而实现高度稳健的学习算法。

Feb, 2024

深度持续学习中的可塑性维护

本文研究了深度学习系统在持续学习环境下的表现，发现其容易出现失去可塑性现象，影响其对新数据的适应能力，但通过 L2 正则化和重启动某些不常用单元的连续反向传播算法，可以缓解和避免这种现象。

Jun, 2023

共享内存的深度多任务学习

本研究提出了两种深度神经网络结构，加入外部记忆共享于多个任务中训练，实验表明该结构帮助相关任务，提高文本分类任务效果。

Sep, 2016

神经机器翻译的连续学习在低遗忘风险区域内进行

本篇论文提出了一种基于局部特征训练的两阶段方法，能够实现大规模预训练神经机器翻译模型的连续学习，以适应新任务，采用这种方法能够在不访问以前的训练数据或引入模型分离的情况下解决之前方法的不足。

Nov, 2022

深度网络中的混合隐私遗忘

本篇文章提出了一种遗忘技术，可以在大规模视觉分类任务中从网络训练的权重中移除一部分训练样本的影响，同时在混合隐私设置中保留核心样本的信息，采用合适的线性逼近替换标准深度网络可以实现相当的精度且达到最前沿的效果。

Dec, 2020

通过网络分割和合并与梦幻元加权模型融合的持续学习

我们提出了一种名为 Split2MetaFusion 的连续学习方法，通过采用两阶段策略（分割和元权重融合），同时实现了网络稳定性和可塑性的更好权衡。在实验结果和分析中，证明了该方法在保持网络稳定性和可塑性方面的优越性。

Dec, 2023

医学领域扩展中应对灾难性遗忘问题

本研究旨在开发一种方法来解决深度学习模型在医疗领域中出现的模型脆弱性问题，该方法在训练后对原有医疗机构的模型性能进行更新，以适应其他医疗机构的数据，同时，在模型性能下降时进行 batch normalization，从而提高模型性能并保护患者隐私。

Mar, 2021

模型更新过程中的灾难性遗忘

本文论述了如何在更新神经网络模型时减少深度学习模型遗忘前期知识的问题，从而减少新模型的训练成本，并介绍混合少量历史数据的数据彩排和弹性加权差异等方法以提高整体准确度。

Jun, 2023

多子网络假设：通过在前馈神经网络中隔离特定任务的子网络实现多领域学习

本文阐述了神经网络在多任务学习方面的应用，介绍了神经网络过度参数化和权值修剪技术的理论基础，提出了一种新的神经网络表示结构，使得修剪神经网络可以在多个任务上实现性能提升，而不会出现遗忘或性能减少的问题。

Jul, 2022

神经网络中的灾难性遗忘测量

本文介绍了 5 种减轻神经网络灾难性遗忘的机制（规则化，合成，彩排，双重记忆和稀疏编码）并提供了新的指标和基准来直接比较它们，实验结果表明，这些机制对于实现最佳性能而言是至关重要的，但难以完全解决灾难性遗忘问题。

Aug, 2017