具有广义持续学习的可扩展语言模型
本文提出了一种新的连续学习问题——连续知识学习,并构建了一个新的数据集和指标,用于衡量时间不变世界知识的保留,过时知识的更新和新知识的获取。通过实验发现,该问题的关键在于对抗知识遗忘和参数扩展,因此对于更好地维护不断变化的大型语言模型非常重要。
Oct, 2021
本文提出了一种名为Selective Memorization的方法来提高半参数语言模型在不断学习流数据时的可伸缩性,该方法只记忆模型难以处理的样本。实验表明,Selective Memorization能够实现半参数语言模型的可扩展、持续学习,并减少遗忘。
Mar, 2023
该论文调研了关于大型语言模型(LLMs)的持续学习方面的最新工作,提出了一种新颖的多阶段分类方案,涉及持续预训练、指令调整和对齐;对LLMs的持续学习与更简单的小模型的适应方法以及其他增强策略进行对比;同时,在讨论基准和评估的基础上,提出了几个挑战和未来工作方向。
Feb, 2024
我们提出了一种评估方法,能够统一评估在连续学习中的稳定性、可塑性和泛化能力,并展示了引入不同的知识蒸馏方法如何改善语音语言理解模型的这三个性质方面。我们进一步展示了我们提出的指标更敏感地捕捉到连续学习中任务顺序的影响,因此更适合实际应用场景。
Feb, 2024
这篇论文研究了大型语言模型(LLMs)中不断学习(CL)领域的发展,重点是开发高效和可持续经验的训练策略。通过不断适应域预训练,我们的研究评估了LLMs在不同数据环境中的适应性和能力,并引入了一个新的基准来衡量这种适应能力,揭示了关于知识转移和模型大小的若干关键见解。
Feb, 2024
通过L1归一化的输出幅度分布来约束梯度更新过程,我们提出了一种无需回放和任务标签的方法MIGU(基于幅度的渐进学习梯度更新),以释放语言模型的内在连续学习能力。实验证明MIGU对于所有三种语言模型架构(T5,RoBERTa和Llama2)普遍适用,在四个连续学习基准测试中,在连续微调和连续预训练设置下,提供了最先进或不相上下的性能。
Jun, 2024
本研究解决了大型语言模型(LLMs)在学习新语言时,难以保持其已掌握语言(通常是英语)的性能的问题。研究提出了一个两阶段的持续微调过程,结果表明,第二阶段任务与第一阶段任务的相似性影响模型的适应性。同时,针对性能下降,分析了两种持续微调方法的变体,证实其在提升语言能力的同时保持任务性能的有效性。
Oct, 2024