简单且可扩展的策略,用于持续预训练大型语言模型
这项研究考察了不同预热策略对大型语言模型的影响,发现重启模型预热可以提高下游性能,即使在大型下游数据集中也优于从头开始训练的模型。
Aug, 2023
持续预训练是适应大型语言模型(LLM)到新领域的主要方法之一,研究探讨了在这个过程中 LLM 的行为和性能,提出了三种有效策略来增强 LLM 在固定计算资源下的性能,经实验证实这些策略在医学任务性能和通用任务性能方面均取得了令人满意的成果。
Jun, 2024
该论文调研了关于大型语言模型(LLMs)的持续学习方面的最新工作,提出了一种新颖的多阶段分类方案,涉及持续预训练、指令调整和对齐;对 LLMs 的持续学习与更简单的小模型的适应方法以及其他增强策略进行对比;同时,在讨论基准和评估的基础上,提出了几个挑战和未来工作方向。
Feb, 2024
本研究旨在通过重复预训练数据来加强大型语言模型。然而,该方法容易导致过拟合,除非使用适当的正则化方法,其中最有效的是 dropout。同时,本研究还探索了数据集大小,模型参数和训练目标等因素对多重训练期恶化的影响,以及混合专家方法如何提高密集大型语言模型的计算效率和性能。
May, 2023
对于语言模型的预训练,更新模型而不是完全重新训练,可以在新数据不断增加时提供显著的收益。本文研究了在语言转移的情况下,当新的数据来自新的语言时,更新语言模型的利与弊。通过将挪威语和冰岛语等数据逐步添加到单语英语语言模型中,我们研究了不同模型规模和学习率计划者的前向传递和后向传递的影响,并发现前向传递主要是积极的且与语言顺序无关,而后向传递则取决于新语言的顺序和特点而可能是积极的或消极的。为了解释这些模式,我们探索了几种语言相似性度量,并发现句法相似性与我们的结果有最好的相关性。
Nov, 2023
这篇论文研究了大型语言模型(LLMs)中不断学习(CL)领域的发展,重点是开发高效和可持续经验的训练策略。通过不断适应域预训练,我们的研究评估了 LLMs 在不同数据环境中的适应性和能力,并引入了一个新的基准来衡量这种适应能力,揭示了关于知识转移和模型大小的若干关键见解。
Feb, 2024
本文提出可解决 Pre-trained language models 在软件代码动态环境下 catastrophic forgetting 问题的五种 continual learning methods,并在两个 downstream tasks 中取得可比较或优越的表现。
May, 2023
本研究通过使用不同的持续学习算法对预先训练的语言模型进行不断的增量预训练,并通过评估模型对新数据的适应能力以及对早期数据所学知识的保留能力来研究生命周期语言模型预训练挑战,结果表明采用基于蒸馏的方法可以最有效地保留早期领域的下游任务性能。这些算法还可以提高知识转移能力,使模型在最新数据上实现更好的下游性能,并在由于时间而存在训练和评估之间的分布差异时,提高时态的泛化能力。
Oct, 2021