大型语言模型下游任务性能的缩放规律
通过详细分析不同预训练模型中的不同能力表现,我们确认了特定下游指标在不同大小的模型中展示相似的训练动态,多达 670 亿参数。此外,我们还复现了 Amber 和 OpenLLaMA,并发布了它们的中间检查点,以为研究界提供宝贵的资源,促进对开源研究人员的 LLM 预训练进行验证和探索。此外,我们提供了不同模型和能力的性能比较以及不同训练阶段的关键指标指导的实证总结。基于这些发现,我们提供了一种更用户友好的评估优化状态的策略,为建立稳定的预训练流程提供指导。
Apr, 2024
基于语言模型的缩放定律,本研究通过建立 104 个模型的测试平台,以不同数量的标记在三个数据分布上进行训练,研究了超过训练的情况下的缩放和语言模型的下游任务性能之间的关系。
Mar, 2024
最近,大型语言模型广泛应用于各种任务,对于如何扩展语言模型对其性能的影响的研究引起了越来越多的关注。本文提出了新概念的时间缩放定律,并研究了语言模型在时间维度上的损失。研究发现,尽管存在损失不平衡,语言模型在不同的令牌位置上学习是均匀的。通过在各种规模的预训练语言模型上进行的实验验证了这一现象,并提供了对预训练语言模型更深入的理解。
Apr, 2024
通过本文所提及的实证研究,我们揭示了神经机器翻译中,编码器 - 解码器 Transformer 模型的扩展特性。具体而言,本文提出了一个公式来描述交叉熵损失与编解码器大小的扩大倍数之间的关系,并在多种扩展方法及语言下展现了估计的准确性。我们同时观察到编码器与解码器扩展的效应不同,基于此提供了编码器 / 解码器容量的最优化分配建议。我们还发现模型的扩展表现受到训练 / 测试集组成偏差的极大影响,称之为 “构造偏差”,这种偏差对减少交叉熵损失十分重要。最后,我们调查了交叉熵损失与生成的翻译质量之间的关系,并发现在测试数据自不同语言的数据翻译转换中,模型大小的改变对模型的推理质量有着不同的影响。我们在本研究中使用的所有模型的生成文本都允许被公开。
Sep, 2021
本文通过对自然语言处理任务的实证研究,发现神经比例定律不仅仅用于模型性能的预测,还可用于模型加速开发、优化模型选型以及模型的收敛调试等方面。
Feb, 2022
大语言模型的微调方法的缩放因子对模型性能的影响的系统实验结果表明,LLM finetuning 遵循微调数据量与其他缩放因子之间的幂函数乘法联合缩放规律,LLM 模型尺寸的扩大比预训练数据尺寸的扩大对 finetuning 更有益处,而仅考虑参数缩放的效果通常并不明显,同时最优的 finetuning 方法与任务和微调数据相关联,这些结果对于选择和开发 LLM finetuning 方法具有指导意义。
Feb, 2024
本文研究了语言模型性能对交叉熵损失计算的经验性规律,发现损失与模型大小、数据集大小和训练所用计算量呈幂律关系,而网络宽度或深度变化对性能影响较小,最优的计算效率可通过训练大型模型、使用适量数据并在达到最佳性能前停止训练来实现。
Jan, 2020
本研究提供了一个大规模的实证研究,研究了多语言神经机器翻译模型的缩放特性,包括模型规模对模型性能的影响,训练混合物组成对缩放行为的作用,以及语言相似性在模型缩放中的作用。通过新颖的联合缩放定律公式,我们计算了每个语言对分配的有效参数数量,并发现了翻译多个语言到英语的模型比反向模型具有更多的任务有效参数。最终,我们利用这些发现预测了任何规模的带有任何语言加权的多语言模型的性能,显著减少了大型多语言模型中语言平衡所需的工作量。
Feb, 2023
本文研究小规模的语言模型中 pre-training 效果的影响,发现 masked language modeling 对于 1.25M 及以上规模的模型具有优化效果,并建立了 pre-training perplexity 和下游任务 (GLUE benchmark) 表现的强关联性。同时,研究了 downscaling effects,并且观察到 FLOPs 小于 $2.2×10^{15}$ 时,MLM loss 并不随着计算成本 (FLOPs) 的降低而平滑缩小,增加层数并不总是有助于提高下游表现。
May, 2023