重用而非重新训练：持续语言模型预训练的方案

Jul, 2024

重用而非重新训练：持续语言模型预训练的方案

Reuse, Don't Retrain: A Recipe for Continued Pretraining of Language Models

Jupinder Parmar, Sanjev Satheesh, Mostofa Patwary, Mohammad Shoeybi, Bryan Catanzaro

TL;DR通过重复使用训练好的模型，以及使用高效的数据分布和学习率调度设计，我们在继续预训练的过程中相比于基准的预训练集继续训练，展示了平均模型准确率提高9%的改善，这一成果为发展语言模型提供了实用的起点。

Abstract

As language models have scaled both their number of parameters and pretraining dataset sizes, the computational cost for →

发现论文，激发创造

语言模型需要多少预训练数据才能学习语法？

本研究探讨了预训练数据大小对RoBERTa模型的句法能力及其在下游应用中的影响，并分析了训练此类模型的成本效益权衡。结果显示，虽然预训练数据大小的增加会显著提高模型的句法能力及在下游任务中表现，但这也带来了更高的经济和环境成本。

Sep, 2021

终身预训练：持续适应新出现的语料库的语言模型

本研究通过使用不同的持续学习算法对预先训练的语言模型进行不断的增量预训练，并通过评估模型对新数据的适应能力以及对早期数据所学知识的保留能力来研究生命周期语言模型预训练挑战，结果表明采用基于蒸馏的方法可以最有效地保留早期领域的下游任务性能。这些算法还可以提高知识转移能力，使模型在最新数据上实现更好的下游性能，并在由于时间而存在训练和评估之间的分布差异时，提高时态的泛化能力。

Oct, 2021

可回收的连续预训练调优

本文探讨了在模型不断学习的情况下，对于更新的预训练模型如何对过期的调整权重进行回收利用，提出了初始化和蒸馏两种方法用于解决该问题，提高了模型的收敛速度和性能。

May, 2023

大型语言模型的持续预训练：如何（重新）热启动您的模型？

这项研究考察了不同预热策略对大型语言模型的影响，发现重启模型预热可以提高下游性能，即使在大型下游数据集中也优于从头开始训练的模型。

Aug, 2023

语言转变下的持续学习研究

对于语言模型的预训练，更新模型而不是完全重新训练，可以在新数据不断增加时提供显著的收益。本文研究了在语言转移的情况下，当新的数据来自新的语言时，更新语言模型的利与弊。通过将挪威语和冰岛语等数据逐步添加到单语英语语言模型中，我们研究了不同模型规模和学习率计划者的前向传递和后向传递的影响，并发现前向传递主要是积极的且与语言顺序无关，而后向传递则取决于新语言的顺序和特点而可能是积极的或消极的。为了解释这些模式，我们探索了几种语言相似性度量，并发现句法相似性与我们的结果有最好的相关性。

Nov, 2023

高效地将预先训练好的语言模型适应新语言

本文研究如何有效地将任何现有的预训练大型语言模型适应到新的语言中，避免灾难性遗忘和标记器效率低下的问题，并通过添加目标语言的新标记和研究数据混合配方提高标记器的编码效率。实验证明，我们的配方在将英语预训练大型语言模型适应到匈牙利语和泰语方面，能够达到比开源模型更好的性能，同时对英语的回归影响很小。

Nov, 2023

简单且可扩展的策略，用于持续预训练大型语言模型

大型语言模型的持续学习策略可以通过简单且可扩展的方法成功更新模型，同时只需使用一小部分计算资源来达到重新训练的效果。

Mar, 2024

大规模语言模型的持续学习：一项综合调研

对大型语言模型在持续学习、预训练、微调以及评估协议方面进行综述.

Apr, 2024

跨语言持续预训练在规模上的突破

本文研究了以持续预训练（CPT）的方式构建新语言的大型语言模型（LLMs），并通过40个模型规模的并行实验表明：1）CPT能够快速收敛并以可扩展的方式节省大量计算资源；2）CPT遵循Hoffmann等人（2022）提出的扩展缩放定律，具有联合数据-参数缩放项；3）根据估计的扩展因子，CPT的计算最优数据-参数分配存在显著差异；4）在训练持续时间和语言属性的影响下，规模化的迁移效果可以通过数据重播的方法有效减轻灾难性遗忘。希望我们的发现对研究界在规模化LLMs的可迁移性方面提供深入的见解。

Jul, 2024

合并学习：通过模型合并高效添加语言模型技能

本研究针对通用语言模型适应新技能的高成本问题，提出了一种通过隔离训练新技能并随后与通用模型合并的方法。实验表明，这种并行训练后合并的过程，不仅成本显著低于传统的模型重训，也能有效提升模型对安全提示的遵从性，同时保持其拒绝危险或有害提示的能力。

Oct, 2024