简单且可扩展的策略,用于持续预训练大型语言模型
本研究旨在通过重复预训练数据来加强大型语言模型。然而,该方法容易导致过拟合,除非使用适当的正则化方法,其中最有效的是dropout。同时,本研究还探索了数据集大小,模型参数和训练目标等因素对多重训练期恶化的影响,以及混合专家方法如何提高密集大型语言模型的计算效率和性能。
May, 2023
这项研究考察了不同预热策略对大型语言模型的影响,发现重启模型预热可以提高下游性能,即使在大型下游数据集中也优于从头开始训练的模型。
Aug, 2023
本文研究如何有效地将任何现有的预训练大型语言模型适应到新的语言中,避免灾难性遗忘和标记器效率低下的问题,并通过添加目标语言的新标记和研究数据混合配方提高标记器的编码效率。实验证明,我们的配方在将英语预训练大型语言模型适应到匈牙利语和泰语方面,能够达到比开源模型更好的性能,同时对英语的回归影响很小。
Nov, 2023
该论文调研了关于大型语言模型(LLMs)的持续学习方面的最新工作,提出了一种新颖的多阶段分类方案,涉及持续预训练、指令调整和对齐;对LLMs的持续学习与更简单的小模型的适应方法以及其他增强策略进行对比;同时,在讨论基准和评估的基础上,提出了几个挑战和未来工作方向。
Feb, 2024
这篇论文研究了大型语言模型(LLMs)中不断学习(CL)领域的发展,重点是开发高效和可持续经验的训练策略。通过不断适应域预训练,我们的研究评估了LLMs在不同数据环境中的适应性和能力,并引入了一个新的基准来衡量这种适应能力,揭示了关于知识转移和模型大小的若干关键见解。
Feb, 2024
通过L1归一化的输出幅度分布来约束梯度更新过程,我们提出了一种无需回放和任务标签的方法MIGU(基于幅度的渐进学习梯度更新),以释放语言模型的内在连续学习能力。实验证明MIGU对于所有三种语言模型架构(T5,RoBERTa和Llama2)普遍适用,在四个连续学习基准测试中,在连续微调和连续预训练设置下,提供了最先进或不相上下的性能。
Jun, 2024
本文研究了以持续预训练(CPT)的方式构建新语言的大型语言模型(LLMs),并通过40个模型规模的并行实验表明:1)CPT能够快速收敛并以可扩展的方式节省大量计算资源;2)CPT遵循Hoffmann等人(2022)提出的扩展缩放定律,具有联合数据-参数缩放项;3)根据估计的扩展因子,CPT的计算最优数据-参数分配存在显著差异;4)在训练持续时间和语言属性的影响下,规模化的迁移效果可以通过数据重播的方法有效减轻灾难性遗忘。希望我们的发现对研究界在规模化LLMs的可迁移性方面提供深入的见解。
Jul, 2024
通过重复使用训练好的模型,以及使用高效的数据分布和学习率调度设计,我们在继续预训练的过程中相比于基准的预训练集继续训练,展示了平均模型准确率提高9%的改善,这一成果为发展语言模型提供了实用的起点。
Jul, 2024
本研究解决了大型语言模型(LLMs)在版本更新中面临的训练成本与性能之间的权衡问题。提出了一种学习率路径切换训练范式,通过在预训练阶段采用较大学习率和在持续预训练阶段实施完整的学习率衰减过程,从而优化了训练过程。实验结果表明,该范式在保持类似预训练性能的同时,将训练成本降低至58%。
Oct, 2024