本文通过对自然语言处理任务的实证研究,发现神经比例定律不仅仅用于模型性能的预测,还可用于模型加速开发、优化模型选型以及模型的收敛调试等方面。
Feb, 2022
基于语言模型的缩放定律,本研究通过建立 104 个模型的测试平台,以不同数量的标记在三个数据分布上进行训练,研究了超过训练的情况下的缩放和语言模型的下游任务性能之间的关系。
Mar, 2024
最近,大型语言模型广泛应用于各种任务,对于如何扩展语言模型对其性能的影响的研究引起了越来越多的关注。本文提出了新概念的时间缩放定律,并研究了语言模型在时间维度上的损失。研究发现,尽管存在损失不平衡,语言模型在不同的令牌位置上学习是均匀的。通过在各种规模的预训练语言模型上进行的实验验证了这一现象,并提供了对预训练语言模型更深入的理解。
Apr, 2024
本篇研究介绍一种更严谨的方法来预测深度学习中的规模效益,提供了一种可靠的方法来估计缩放参数并通过发布基准数据集以帮助该领域的研究。
Sep, 2022
本技术报告确认原始 OpenAI 论文中提出的缩放定律公式在将模型大小扩大至 330 亿时仍然有效,但这些公式中的常数系数依赖于实验设置。我们细致地确定了影响因素,并提供透明的逐步指导,通过在包含 1M~60M 参数的模型上进行训练估算出缩放定律数学公式中的所有常数项。利用这些估算公式,我们展示了在其训练之前准确预测多达 330B 参数模型的各种属性的能力,包括 (1) 最小可能测试损失;(2) 实现特定损失所需的最小训练步骤和处理的标记数;(3) 在任何损失值上具有最佳时间 / 计算权衡的关键批大小;以及 (4) 完整的测试损失轨迹和任意批大小。
随着数据集规模的增大,对大型人工智能模型进行训练的数据中包含的不同社群数量可能增加,而每个社群可能持有不同的价值观,这对于刻度律模型的性能评估可能存在风险。
Jul, 2023
本文研究了语言模型性能对交叉熵损失计算的经验性规律,发现损失与模型大小、数据集大小和训练所用计算量呈幂律关系,而网络宽度或深度变化对性能影响较小,最优的计算效率可通过训练大型模型、使用适量数据并在达到最佳性能前停止训练来实现。
Jan, 2020
神经网络的表现在训练时间、数据集大小和模型大小上预测性地提高,这一现象被称为神经缩放定律,而计算最优缩放定律则是将性能作为计算单元函数以选择模型大小来报告的;研究表明,神经网络在训练早期以 $1/ extit {width}$ 的速度收敛到无限宽度动力学,但在后期表现为 $ extit {width}^{-c}$ 的速度,其中 $c$ 取决于架构和任务的结构;此外,理论上显示了由于数据的重复重用,训练和测试损失之间的差距可以随时间逐渐增大。
Feb, 2024
本研究探索了对比语言 - 图像预训练(CLIP)的缩放定律,使用了公共数据集和开放源代码来研究缩放规律,并发现训练分布在缩放规律中起关键作用。通过在多个下游任务中评估最大规模的公共 CLIP 模型,我们发现在多个下游任务中,有效训练集大小、模型大小和计算量与性能之间具有幂律缩放关系。
Dec, 2022
通过大规模采样在解码阶段引入 PassUntil 评估策略,本研究量化了任务性能的扩展规律并发现了突现能力的具体证据,从而推翻了有关突现能力产生的常见 “多步推理假设”,提出了一种符合观察到的扩展曲线的新假设。
Oct, 2023