在域自适应背景下,我们从模块和参数(神经元)的角度探究了神经机器翻译(NMT)模型的灾难性遗忘原因,发现一些模块与通用领域知识有紧密联系,而其他一些模块在域自适应中更为重要,一些参数对通用领域和领域内翻译都很重要,而在持续训练期间它们的大幅变化导致了通用领域性能下降。
Nov, 2020
本文提出了一种名为AdaptCL的自适应学习方法,该方法通过参数再利用和增长来克服灾难性遗忘,并允许积极的后向传递,同时不需要数据集标签。
Jul, 2022
本篇论文提出了一种基于局部特征训练的两阶段方法,能够实现大规模预训练神经机器翻译模型的连续学习,以适应新任务,采用这种方法能够在不访问以前的训练数据或引入模型分离的情况下解决之前方法的不足。
Nov, 2022
研究多语言神经机器翻译中的灾难性遗忘问题,并提出基于知识蒸馏的生命周期学习方法,以应对其面临的问题。实验结果显示,该方法能够更好地巩固以前的知识并显著减轻问题。
Dec, 2022
本文提出在线蒸馏过程中发生领域转移时容易出现的重要问题——灾难性遗忘,针对这一问题,提出了一种基于 continual learning 方法的解决方案,我们将多种最先进的 continual learning 方法纳入在线蒸馏的上下文中,并以周期性领域转移实验结果为例进行了详细分析。我们的实验结果表明,该方法在提高在线蒸馏的鲁棒性和准确性方面具有有效性,并具有在视频监控或自动驾驶等领域的潜在应用。
Apr, 2023
本论文研究在一种包含51种语言和分类、序列标记任务的大规模多语言持续学习框架中,灾难性遗忘问题以及最小化此问题的方法,提出了一种学习率调整方法LR ADJUST,其能有效地保留新信息而不过度覆盖过去的知识,并且该方法在多种持续学习方法中都行之有效。还进一步深入分析了该大规模多语言环境下灾难性遗忘的动态过程。
May, 2023
机器学习中的灾难性遗忘是一个重要的挑战,本文提出了一种新的方法来防止机器学习应用中的灾难性遗忘,并展示了该方法在连续学习设置中提高神经网络性能的潜力。
Nov, 2023
连续预训练中灾难性遗忘现象对于已经经过微调的大规模语言模型的影响及重复问题的挑战。
Jan, 2024
对大型语言模型在持续学习、预训练、微调以及评估协议方面进行综述.
Apr, 2024
本研究解决了持续学习和机器遗忘两个重要挑战,并提出了一种利用受控知识蒸馏的统一框架。该方法实现了高效学习、最小遗忘及有效的定向遗忘,实验结果显示其在这两方面的表现超过了现有方法。此框架的提出为具有动态学习和遗忘能力的适应性模型奠定了基础。
Aug, 2024