面向大型语言模型的终身学习:一项调查
该论文调研了关于大型语言模型(LLMs)的持续学习方面的最新工作,提出了一种新颖的多阶段分类方案,涉及持续预训练、指令调整和对齐;对 LLMs 的持续学习与更简单的小模型的适应方法以及其他增强策略进行对比;同时,在讨论基准和评估的基础上,提出了几个挑战和未来工作方向。
Feb, 2024
最近,基础语言模型(LMs)在自然语言处理(NLP)和计算机视觉(CV)领域取得了重要的成就。然而,由于灾难性遗忘的原因,它们仍然无法模拟类似人类的连续学习。为了解决这个问题,已经开发了各种基于连续学习(CL)的方法来改进 LMs,并使其能够适应新任务而不会遗忘以前的知识。然而,目前对现有方法的系统分类和性能比较仍然缺乏,这是我们调查的空白。我们对基础语言模型中应用的基于 CL 方法的现有文献进行了全面回顾、总结和分类,如预训练语言模型(PLMs)、大型语言模型(LLMs)和视觉语言模型(VLMs)。我们将这些研究分为离线 CL 和在线 CL,其中包括传统方法、基于参数效率的方法、基于指令调优的方法和连续预训练方法。离线 CL 包括领域增量学习、任务增量学习和类增量学习,而在线 CL 又分为困难任务边界和模糊任务边界设置。此外,我们概述了 CL 研究中使用的典型数据集和度量标准,并详细分析了 LMs-based 连续学习的挑战和未来工作。
May, 2024
论文介绍了跨语言寿命学习(CLL)挑战,其中模型不断进行微调以适应来自不同语言的新数据,分析了不同跨语言持续学习算法的知识保留,累积和泛化能力,并提供了如何测量和平衡不同跨语言持续学习渴求的菜谱。
May, 2022
大型语言模型具有解决语言相关任务的天赋,但由于它们静止于参数中的知识的局限性,存在无法应对信息变化和任务技能过时的问题。工具使用能帮助 LLM 通过接口获得外部系统的支持,但使用工具的 LLM 仍需适应不稳定的环境,并且需要学会使用预定义的工具。为验证这一观点,我们开发了一个合成基准并聚合了现有的自然语言处理任务,形成一个更加真实的测试场景。我们证明模型规模扩大并非解决方案,而不论是否使用工具,持续学习技术都能使工具型 LLM 更快适应并遗忘更少,凸显了它们作为持续学习者的潜力。
Apr, 2024
本文提出了 Lifelong-MoE,一种基于扩展的 MoE(Expansive Mixture-of-Experts)架构的 Lifelong Learning 方法,其具有更好的 few-shot 性能,可以对大规模语料进行更好的预训练,适应不同的下游任务。
May, 2023
本文提出了一种用于神经主题建模的终身学习框架,可以连续处理文档集流并通过从多个来源的知识转移积累主题,以更好地处理稀疏数据,并通过新的选择性数据增强、共同训练和主题正则化方法来最小化灾难性遗忘,作者通过建模三个稀疏的文档集任务进行证明其提出的终身神经主题建模(LNTM)框架具有改良的表现。
Jun, 2020
本文提出了一种新的连续学习问题 —— 连续知识学习,并构建了一个新的数据集和指标,用于衡量时间不变世界知识的保留,过时知识的更新和新知识的获取。通过实验发现,该问题的关键在于对抗知识遗忘和参数扩展,因此对于更好地维护不断变化的大型语言模型非常重要。
Oct, 2021