反比缩放:大不一定好
本文研究了逆比例缩放任务,发现多数任务的表现呈现 “U 型缩放”,即随着模型大小的增加,性能先下降后上升,只有四个任务呈现逆比例缩放。研究表明,对于大型模型而言,先前观察到的精度下降趋势可能无法继续保持,并进一步支持大型模型会释放新的能力的主张。
Nov, 2022
研究对语言建模任务进行训练过程中,随着模型参数规模的增加,Pythia 模型在两项特定任务上的表现会下降,尽管这些模型总体呈现正的标度。这突显了测试模型在所有相关基准上的性能的重要性,即使它们的整体表现有所提升。
May, 2023
研究了大型语言模型在机器翻译任务上的指令注入攻击,发现在某些条件下,更大的模型可能更容易受到成功攻击的影响,这是多语言环境下非平凡的语言模型缩放行为研究的首次工作。
Mar, 2024
本文研究了语言模型性能对交叉熵损失计算的经验性规律,发现损失与模型大小、数据集大小和训练所用计算量呈幂律关系,而网络宽度或深度变化对性能影响较小,最优的计算效率可通过训练大型模型、使用适量数据并在达到最佳性能前停止训练来实现。
Jan, 2020
基于语言模型的缩放定律,本研究通过建立 104 个模型的测试平台,以不同数量的标记在三个数据分布上进行训练,研究了超过训练的情况下的缩放和语言模型的下游任务性能之间的关系。
Mar, 2024
最近,大型语言模型广泛应用于各种任务,对于如何扩展语言模型对其性能的影响的研究引起了越来越多的关注。本文提出了新概念的时间缩放定律,并研究了语言模型在时间维度上的损失。研究发现,尽管存在损失不平衡,语言模型在不同的令牌位置上学习是均匀的。通过在各种规模的预训练语言模型上进行的实验验证了这一现象,并提供了对预训练语言模型更深入的理解。
Apr, 2024
参数扩展对大型语言模型核心能力的影响是如何的?我们研究了两种常见的扩展技术 —— 权重剪枝和直接训练更小或更大的模型,并分析了它们对语言模型的两个核心能力的影响:(a) 回忆在预训练阶段出现过的事实;(b) 处理推理过程中的上下文信息。通过设计一系列任务,我们发现了这两个能力在不同扩展方式下的差异。将模型大小减少 30% 以上(通过任何扩展方法)会显著降低回忆预训练中出现的事实的能力,但是将模型大小减少 60-70% 则大致保留了模型在处理上下文信息时的各种方式,从从长篇文本中检索答案到通过上下文示例学习参数化函数。密集扩展和权重剪枝都表现出这种行为,这表明模型大小的扩展对于事实回忆和上下文学习具有本质上不同的影响。
Oct, 2023
本研究提供了一个大规模的实证研究,研究了多语言神经机器翻译模型的缩放特性,包括模型规模对模型性能的影响,训练混合物组成对缩放行为的作用,以及语言相似性在模型缩放中的作用。通过新颖的联合缩放定律公式,我们计算了每个语言对分配的有效参数数量,并发现了翻译多个语言到英语的模型比反向模型具有更多的任务有效参数。最终,我们利用这些发现预测了任何规模的带有任何语言加权的多语言模型的性能,显著减少了大型多语言模型中语言平衡所需的工作量。
Feb, 2023
基于大规模语言模型的缩放定律已经在如何训练规模更大的模型以获得可预测的性能提升上提供了有用的指导。该研究表明,基于解码器的时间序列变换模型也展示了与语言模型类似的缩放行为,对于广泛范围内的架构细节(纵横比和头数)几乎没有影响。我们汇集了大量的异构时间序列数据进行训练,并首次建立了参数数量、数据集大小和训练计算量与其之间的幂律缩放关系,涵盖了五个数量级。
May, 2024