语言模型的持续知识学习
本研究通过使用不同的持续学习算法对预先训练的语言模型进行不断的增量预训练,并通过评估模型对新数据的适应能力以及对早期数据所学知识的保留能力来研究生命周期语言模型预训练挑战,结果表明采用基于蒸馏的方法可以最有效地保留早期领域的下游任务性能。这些算法还可以提高知识转移能力,使模型在最新数据上实现更好的下游性能,并在由于时间而存在训练和评估之间的分布差异时,提高时态的泛化能力。
Oct, 2021
本研究提出了一种新的方法,使用一系列未标记的领域语料库来连续培训语言模型,从而改善它们的最终任务绩效。该方法的关键创新点是一种软掩蔽机制,它直接控制语言模型的更新,同时提供了一个新的代理来保留原始LM中的通用知识。实证评估证明了所提方法的有效性。
Feb, 2023
为了解决语言模型在知识不断演进的情况下需要获取新知识并更新旧知识的问题,我们引入了一个新颖的基准测试,EvolvingQA,它用于训练和评估语言模型在一个不断演进的维基百科数据库上的能力,通过引入问题回答作为下游任务模拟了真实世界应用。通过研究发现,现有的持续学习基准在更新和遗忘过时知识方面存在困难,主要是由于小的权重梯度导致模型无法学习到更新的知识。此外,我们发现模型在提供数值或时间答案以及问及更新知识的问题上遇到了较大困难。我们的工作旨在对真实世界信息的动态性进行建模,并为语言模型的演进适应能力提供了一个强有力的度量。
Nov, 2023
在这篇论文中,我们介绍了一个新的问题,在持续学习领域中称为“在线持续知识学习(OCKL)”。我们提出了一个新的基准和评估指标,旨在测量新知识获取的速度和先前学到的知识的保留率。通过使用各种最先进的方法进行的实证评估为OCKL建立了稳健的基准。我们的结果显示,现有的持续学习方法对于应对OCKL提出的独特挑战不足够。我们确定了影响知识获取和保留之间权衡的关键因素,从而推进了我们对如何在不断演化的环境中训练LLMs的理解。
Nov, 2023
该论文调研了关于大型语言模型(LLMs)的持续学习方面的最新工作,提出了一种新颖的多阶段分类方案,涉及持续预训练、指令调整和对齐;对LLMs的持续学习与更简单的小模型的适应方法以及其他增强策略进行对比;同时,在讨论基准和评估的基础上,提出了几个挑战和未来工作方向。
Feb, 2024
这篇论文研究了大型语言模型(LLMs)中不断学习(CL)领域的发展,重点是开发高效和可持续经验的训练策略。通过不断适应域预训练,我们的研究评估了LLMs在不同数据环境中的适应性和能力,并引入了一个新的基准来衡量这种适应能力,揭示了关于知识转移和模型大小的若干关键见解。
Feb, 2024
通过“从错误中总结”的学习技巧,我们提出了继续从错误中演进的方法(CEM)来实现对大型语言模型的迭代改进,从而解决其知识缺陷问题。我们通过采集涉及问题相关的知识的多个数据源,进行连续、有针对性的知识更新和补充,同时开发了两种策略来构建补充训练集,以增强语言模型对语料库的理解能力并防止灾难性遗忘。通过广泛实验验证了该方法的有效性,最佳情况下,该方法使语言模型的准确性提高了17.00%。
Apr, 2024
本研究解决了语言模型中知识局部化存储机制不明确的问题,尤其针对时间敏感实体的两种知识类型,发现它们在模型的不同参数集中定向存储。提出通过关注知识的局部性来改进连续学习方法,从而提高了对新信息的获取和减少了以往信息的灾难性遗忘,验证了在具有时间漂移的语言中,通过针对性更新相关层的参数可显著提升预训练性能。
Nov, 2024