语言模型的持续训练用于少样本学习
本研究提出了一种新的方法,使用一系列未标记的领域语料库来连续培训语言模型,从而改善它们的最终任务绩效。该方法的关键创新点是一种软掩蔽机制,它直接控制语言模型的更新,同时提供了一个新的代理来保留原始 LM 中的通用知识。实证评估证明了所提方法的有效性。
Feb, 2023
本研究通过使用不同的持续学习算法对预先训练的语言模型进行不断的增量预训练,并通过评估模型对新数据的适应能力以及对早期数据所学知识的保留能力来研究生命周期语言模型预训练挑战,结果表明采用基于蒸馏的方法可以最有效地保留早期领域的下游任务性能。这些算法还可以提高知识转移能力,使模型在最新数据上实现更好的下游性能,并在由于时间而存在训练和评估之间的分布差异时,提高时态的泛化能力。
Oct, 2021
这篇论文研究了大型语言模型(LLMs)中不断学习(CL)领域的发展,重点是开发高效和可持续经验的训练策略。通过不断适应域预训练,我们的研究评估了 LLMs 在不同数据环境中的适应性和能力,并引入了一个新的基准来衡量这种适应能力,揭示了关于知识转移和模型大小的若干关键见解。
Feb, 2024
大型语言模型(LLMs)预先训练在海量语料库上,在各种 NLP 任务中展示了出色的性能。本文针对特定领域应用这些模型仍然存在着显著挑战,如缺乏领域知识、有限的领域知识利用能力和不足的领域特定数据格式适应能力。因此,本研究聚焦于以电子商务领域为示例进行面向领域的持续预训练。具体而言,我们探讨了在无标签的一般和电子商务语料库上进行持续预训练对 LLMs 的影响。此外,我们设计了一种混合策略来更好地利用电子商务半结构化数据。我们构建了多个任务来评估 LLMs 在电子商务领域中的少样本上下文学习能力以及经过指令调整后的零样本性能。实验结果证明了电子商务 LLMs 持续预训练的有效性,以及我们设计的数据混合策略的功效。
Dec, 2023
该论文调研了关于大型语言模型(LLMs)的持续学习方面的最新工作,提出了一种新颖的多阶段分类方案,涉及持续预训练、指令调整和对齐;对 LLMs 的持续学习与更简单的小模型的适应方法以及其他增强策略进行对比;同时,在讨论基准和评估的基础上,提出了几个挑战和未来工作方向。
Feb, 2024
本研究探讨了持续预训练作为开发面向特定领域的大型语言模型的一种替代策略,引入了通过领域自适应持续预训练在金融领域上开发的 FinPythia-6.9B,FinPythia 通过金融任务中持续预训练实现了稳定的改进,并进一步探索了简单而有效的数据选择策略,相较于常规的持续预训练方法,我们的数据选择策略在使用仅 10% 的语料库大小和成本时表现更好,在开放领域的标准任务上没有任何退化。本研究提出了一种以成本效益的方式构建面向特定领域的大型语言模型的替代解决方案。
Nov, 2023
最近,基础语言模型(LMs)在自然语言处理(NLP)和计算机视觉(CV)领域取得了重要的成就。然而,由于灾难性遗忘的原因,它们仍然无法模拟类似人类的连续学习。为了解决这个问题,已经开发了各种基于连续学习(CL)的方法来改进 LMs,并使其能够适应新任务而不会遗忘以前的知识。然而,目前对现有方法的系统分类和性能比较仍然缺乏,这是我们调查的空白。我们对基础语言模型中应用的基于 CL 方法的现有文献进行了全面回顾、总结和分类,如预训练语言模型(PLMs)、大型语言模型(LLMs)和视觉语言模型(VLMs)。我们将这些研究分为离线 CL 和在线 CL,其中包括传统方法、基于参数效率的方法、基于指令调优的方法和连续预训练方法。离线 CL 包括领域增量学习、任务增量学习和类增量学习,而在线 CL 又分为困难任务边界和模糊任务边界设置。此外,我们概述了 CL 研究中使用的典型数据集和度量标准,并详细分析了 LMs-based 连续学习的挑战和未来工作。
May, 2024
持续预训练是适应大型语言模型(LLM)到新领域的主要方法之一,研究探讨了在这个过程中 LLM 的行为和性能,提出了三种有效策略来增强 LLM 在固定计算资源下的性能,经实验证实这些策略在医学任务性能和通用任务性能方面均取得了令人满意的成果。
Jun, 2024