神经机器翻译的连续学习在低遗忘风险区域内进行
分析神经机器翻译系统的主要组件及其对领域适应性的贡献和容量,发现继续训练对性能的影响不大,并且当单个组件适应时性能惊人的好。发现继续训练不会将模型移动得非常远离域外模型,这表明域外模型可以为新域提供良好的通用初始化。
Sep, 2018
该研究论文提出了CALM技术,通过对大型语言表示模型进行连续自适应学习,使其跨领域保留知识,并在生物医学和临床领域的实验中展示了任务特定模型与CALM模型性能差距的减小。
Apr, 2020
在域自适应背景下,我们从模块和参数(神经元)的角度探究了神经机器翻译(NMT)模型的灾难性遗忘原因,发现一些模块与通用领域知识有紧密联系,而其他一些模块在域自适应中更为重要,一些参数对通用领域和领域内翻译都很重要,而在持续训练期间它们的大幅变化导致了通用领域性能下降。
Nov, 2020
针对神经网络在从动态数据分布中连续学习多个任务时逐渐忘记以前学习的知识的问题,提出了一种补充在线知识蒸馏(COKD)的解决方法,成功地缓解了不平衡训练问题并在多个机器翻译任务上取得了实质性的改进。
Mar, 2022
本研究提出了一种新的方法,使用一系列未标记的领域语料库来连续培训语言模型,从而改善它们的最终任务绩效。该方法的关键创新点是一种软掩蔽机制,它直接控制语言模型的更新,同时提供了一个新的代理来保留原始LM中的通用知识。实证评估证明了所提方法的有效性。
Feb, 2023
这篇论文研究了大型语言模型(LLMs)中不断学习(CL)领域的发展,重点是开发高效和可持续经验的训练策略。通过不断适应域预训练,我们的研究评估了LLMs在不同数据环境中的适应性和能力,并引入了一个新的基准来衡量这种适应能力,揭示了关于知识转移和模型大小的若干关键见解。
Feb, 2024
通过利用编码器-解码器Transformers的生成能力,我们提出了一种新的方法来持续学习神经机器翻译系统,以有效地从包含不同语言的经验流中学习,通过使用模型作为生成器填充重播记忆来对抗灾难性遗忘,而无需明确记忆训练数据。
Mar, 2024
通过两阶段训练方法,即不断在并行数据上预训练大型语言模型并在少量高质量并行数据上进行有监督微调,我们证明了这种方法的有效性。我们的研究表明,在并行数据的持续预训练中,在源句和目标句之间交替使用是至关重要的。此外,我们还证明了基于LLM的翻译模型在口语语言翻译中更加稳健,在使用更少的训练数据时可以达到更高的准确性,相较于有监督的编码器-解码器模型。最高的准确性在于持续预训练数据包括交替的源句和目标句以及在源句中添加标签时实现。
Jul, 2024