神经机器翻译的连续学习在低遗忘风险区域内进行

Nov, 2022

神经机器翻译的连续学习在低遗忘风险区域内进行

Continual Learning of Neural Machine Translation within Low Forgetting Risk Regions

Shuhao Gu, Bojie Hu, Yang Feng

TL;DR本篇论文提出了一种基于局部特征训练的两阶段方法，能够实现大规模预训练神经机器翻译模型的连续学习，以适应新任务，采用这种方法能够在不访问以前的训练数据或引入模型分离的情况下解决之前方法的不足。

Abstract

This paper considers continual learning of large-scale pretrained neural machine translation model without accessing the previous training data or introducing model separation. We argue that the widely used regul

发现论文，激发创造

神经机器翻译中冻结子网络以分析领域自适应

分析神经机器翻译系统的主要组件及其对领域适应性的贡献和容量，发现继续训练对性能的影响不大，并且当单个组件适应时性能惊人的好。发现继续训练不会将模型移动得非常远离域外模型，这表明域外模型可以为新域提供良好的通用初始化。

Sep, 2018

CALM: 连续适应学习的语言建模

该研究论文提出了CALM技术，通过对大型语言表示模型进行连续自适应学习，使其跨领域保留知识，并在生物医学和临床领域的实验中展示了任务特定模型与CALM模型性能差距的减小。

Apr, 2020

探究神经机器翻译的连续训练期间的灾难性遗忘

在域自适应背景下，我们从模块和参数（神经元）的角度探究了神经机器翻译（NMT）模型的灾难性遗忘原因，发现一些模块与通用领域知识有紧密联系，而其他一些模块在域自适应中更为重要，一些参数对通用领域和领域内翻译都很重要，而在持续训练期间它们的大幅变化导致了通用领域性能下降。

Nov, 2020

神经机器翻译的平衡训练：超越持续学习的灾难性遗忘

针对神经网络在从动态数据分布中连续学习多个任务时逐渐忘记以前学习的知识的问题，提出了一种补充在线知识蒸馏（COKD）的解决方法，成功地缓解了不平衡训练问题并在多个机器翻译任务上取得了实质性的改进。

Mar, 2022

语言模型的持续学习

本研究提出了一种新的方法，使用一系列未标记的领域语料库来连续培训语言模型，从而改善它们的最终任务绩效。该方法的关键创新点是一种软掩蔽机制，它直接控制语言模型的更新，同时提供了一个新的代理来保留原始LM中的通用知识。实证评估证明了所提方法的有效性。

Feb, 2023

大型语言模型中的连续预训练探索：洞见与影响

这篇论文研究了大型语言模型（LLMs）中不断学习（CL）领域的发展，重点是开发高效和可持续经验的训练策略。通过不断适应域预训练，我们的研究评估了LLMs在不同数据环境中的适应性和能力，并引入了一个新的基准来衡量这种适应能力，揭示了关于知识转移和模型大小的若干关键见解。

Feb, 2024

简单且可扩展的策略，用于持续预训练大型语言模型

大型语言模型的持续学习策略可以通过简单且可扩展的方法成功更新模型，同时只需使用一小部分计算资源来达到重新训练的效果。

Mar, 2024

自生成的重播记忆用于持续神经机器翻译

通过利用编码器-解码器Transformers的生成能力，我们提出了一种新的方法来持续学习神经机器翻译系统，以有效地从包含不同语言的经验流中学习，通过使用模型作为生成器填充重播记忆来对抗灾难性遗忘，而无需明确记忆训练数据。

Mar, 2024

大规模语言模型的持续学习：一项综合调研

对大型语言模型在持续学习、预训练、微调以及评估协议方面进行综述.

Apr, 2024

通过持续预训练并行数据提高大型语言模型的翻译准确性

通过两阶段训练方法，即不断在并行数据上预训练大型语言模型并在少量高质量并行数据上进行有监督微调，我们证明了这种方法的有效性。我们的研究表明，在并行数据的持续预训练中，在源句和目标句之间交替使用是至关重要的。此外，我们还证明了基于LLM的翻译模型在口语语言翻译中更加稳健，在使用更少的训练数据时可以达到更高的准确性，相较于有监督的编码器-解码器模型。最高的准确性在于持续预训练数据包括交替的源句和目标句以及在源句中添加标签时实现。

Jul, 2024