语言模型的持续学习
该研究论文提出了CALM技术,通过对大型语言表示模型进行连续自适应学习,使其跨领域保留知识,并在生物医学和临床领域的实验中展示了任务特定模型与CALM模型性能差距的减小。
Apr, 2020
本文提出了一种新的连续学习问题——连续知识学习,并构建了一个新的数据集和指标,用于衡量时间不变世界知识的保留,过时知识的更新和新知识的获取。通过实验发现,该问题的关键在于对抗知识遗忘和参数扩展,因此对于更好地维护不断变化的大型语言模型非常重要。
Oct, 2021
本文提出了连续后训练(CPT)的问题,建议使用一系列未标记的领域语料库不断扩展语言模型的知识,以在领域内改进几次短时间的任务学习的效果,并成功地验证了其有效性。
Oct, 2022
本文提出了一种新的领域适应预训练方法,通过软遮罩注意力头并对一般和完全表示进行对比学习,以更智能的方式对 LM 中的知识进行适应,实验结果表明了该方法的有效性。
Jan, 2023
该论文调研了关于大型语言模型(LLMs)的持续学习方面的最新工作,提出了一种新颖的多阶段分类方案,涉及持续预训练、指令调整和对齐;对LLMs的持续学习与更简单的小模型的适应方法以及其他增强策略进行对比;同时,在讨论基准和评估的基础上,提出了几个挑战和未来工作方向。
Feb, 2024
这篇论文研究了大型语言模型(LLMs)中不断学习(CL)领域的发展,重点是开发高效和可持续经验的训练策略。通过不断适应域预训练,我们的研究评估了LLMs在不同数据环境中的适应性和能力,并引入了一个新的基准来衡量这种适应能力,揭示了关于知识转移和模型大小的若干关键见解。
Feb, 2024
最近,基础语言模型(LMs)在自然语言处理(NLP)和计算机视觉(CV)领域取得了重要的成就。然而,由于灾难性遗忘的原因,它们仍然无法模拟类似人类的连续学习。为了解决这个问题,已经开发了各种基于连续学习(CL)的方法来改进LMs,并使其能够适应新任务而不会遗忘以前的知识。然而,目前对现有方法的系统分类和性能比较仍然缺乏,这是我们调查的空白。我们对基础语言模型中应用的基于CL方法的现有文献进行了全面回顾、总结和分类,如预训练语言模型(PLMs)、大型语言模型(LLMs)和视觉语言模型(VLMs)。我们将这些研究分为离线CL和在线CL,其中包括传统方法、基于参数效率的方法、基于指令调优的方法和连续预训练方法。离线CL包括领域增量学习、任务增量学习和类增量学习,而在线CL又分为困难任务边界和模糊任务边界设置。此外,我们概述了CL研究中使用的典型数据集和度量标准,并详细分析了LMs-based连续学习的挑战和未来工作。
May, 2024
通过L1归一化的输出幅度分布来约束梯度更新过程,我们提出了一种无需回放和任务标签的方法MIGU(基于幅度的渐进学习梯度更新),以释放语言模型的内在连续学习能力。实验证明MIGU对于所有三种语言模型架构(T5,RoBERTa和Llama2)普遍适用,在四个连续学习基准测试中,在连续微调和连续预训练设置下,提供了最先进或不相上下的性能。
Jun, 2024