声学模型的缩放率
通过研究生成式图像建模、视频建模、多模式图像与文本模型和数学问题求解等四个领域,我们发现交叉熵损失的实证缩放定律,指出自回归变压器在性能上平滑提高,其最佳模型大小还受到计算预算影响,同时也寻找到了特定领域的进一步扩展规律。这些结果加强了缩放定律对于神经网络性能以及下游任务的重要影响。
Oct, 2020
本文研究了语言模型性能对交叉熵损失计算的经验性规律,发现损失与模型大小、数据集大小和训练所用计算量呈幂律关系,而网络宽度或深度变化对性能影响较小,最优的计算效率可通过训练大型模型、使用适量数据并在达到最佳性能前停止训练来实现。
Jan, 2020
本技术报告确认原始 OpenAI 论文中提出的缩放定律公式在将模型大小扩大至 330 亿时仍然有效,但这些公式中的常数系数依赖于实验设置。我们细致地确定了影响因素,并提供透明的逐步指导,通过在包含 1M~60M 参数的模型上进行训练估算出缩放定律数学公式中的所有常数项。利用这些估算公式,我们展示了在其训练之前准确预测多达 330B 参数模型的各种属性的能力,包括 (1) 最小可能测试损失;(2) 实现特定损失所需的最小训练步骤和处理的标记数;(3) 在任何损失值上具有最佳时间 / 计算权衡的关键批大小;以及 (4) 完整的测试损失轨迹和任意批大小。
Mar, 2024
研究表明,生成建模中的交叉熵损失随模型大小和训练计算能力的增加呈幂律加常数比例变化,但在强化学习中,性能目标的变化不一定平稳,因而提出了内生表现作为性能度量标准,通过系列模型中达到所需返回的最小计算量来定义,研究表明内生表现同样随模型大小和环境交互呈幂律变化,与生成建模类似,最优模型大小也随训练计算能力呈幂律变化。
Jan, 2023
本文通过对自然语言处理任务的实证研究,发现神经比例定律不仅仅用于模型性能的预测,还可用于模型加速开发、优化模型选型以及模型的收敛调试等方面。
Feb, 2022
神经网络的表现在训练时间、数据集大小和模型大小上预测性地提高,这一现象被称为神经缩放定律,而计算最优缩放定律则是将性能作为计算单元函数以选择模型大小来报告的;研究表明,神经网络在训练早期以 $1/ extit {width}$ 的速度收敛到无限宽度动力学,但在后期表现为 $ extit {width}^{-c}$ 的速度,其中 $c$ 取决于架构和任务的结构;此外,理论上显示了由于数据的重复重用,训练和测试损失之间的差距可以随时间逐渐增大。
Feb, 2024
AI 模型规模扩大时,神经缩放定律成为预测大型模型在增加容量和原始(人工或自然)训练数据大小时改进的关键工具。然而,流行模型的广泛使用意味着在线数据和文本的生态系统将逐渐含有越来越多的合成数据。本文通过缩放定律的观点开发了一个有关模型崩溃的理论框架,发现了一系列衰变现象,包括缩放的损失、与代数数量的缩放的变化、技能的 “损失” 以及混合人工和合成数据时的理解。我们通过对一个算术任务和使用大型语言模型 Llama2 进行的文本生成的大规模实验验证了我们的理论。
Feb, 2024
通过本文所提及的实证研究,我们揭示了神经机器翻译中,编码器 - 解码器 Transformer 模型的扩展特性。具体而言,本文提出了一个公式来描述交叉熵损失与编解码器大小的扩大倍数之间的关系,并在多种扩展方法及语言下展现了估计的准确性。我们同时观察到编码器与解码器扩展的效应不同,基于此提供了编码器 / 解码器容量的最优化分配建议。我们还发现模型的扩展表现受到训练 / 测试集组成偏差的极大影响,称之为 “构造偏差”,这种偏差对减少交叉熵损失十分重要。最后,我们调查了交叉熵损失与生成的翻译质量之间的关系,并发现在测试数据自不同语言的数据翻译转换中,模型大小的改变对模型的推理质量有着不同的影响。我们在本研究中使用的所有模型的生成文本都允许被公开。
Sep, 2021
基于大规模语言模型的缩放定律已经在如何训练规模更大的模型以获得可预测的性能提升上提供了有用的指导。该研究表明,基于解码器的时间序列变换模型也展示了与语言模型类似的缩放行为,对于广泛范围内的架构细节(纵横比和头数)几乎没有影响。我们汇集了大量的异构时间序列数据进行训练,并首次建立了参数数量、数据集大小和训练计算量与其之间的幂律缩放关系,涵盖了五个数量级。
May, 2024