显微镜下的比例定律:从小尺度实验预测变形器的性能
本文研究了语言模型性能对交叉熵损失计算的经验性规律,发现损失与模型大小、数据集大小和训练所用计算量呈幂律关系,而网络宽度或深度变化对性能影响较小,最优的计算效率可通过训练大型模型、使用适量数据并在达到最佳性能前停止训练来实现。
Jan, 2020
通过大规模采样在解码阶段引入 PassUntil 评估策略,本研究量化了任务性能的扩展规律并发现了突现能力的具体证据,从而推翻了有关突现能力产生的常见“多步推理假设”,提出了一种符合观察到的扩展曲线的新假设。
Oct, 2023
本技术报告确认原始OpenAI论文中提出的缩放定律公式在将模型大小扩大至330亿时仍然有效,但这些公式中的常数系数依赖于实验设置。我们细致地确定了影响因素,并提供透明的逐步指导,通过在包含1M~60M参数的模型上进行训练估算出缩放定律数学公式中的所有常数项。利用这些估算公式,我们展示了在其训练之前准确预测多达330B参数模型的各种属性的能力,包括(1)最小可能测试损失;(2)实现特定损失所需的最小训练步骤和处理的标记数;(3)在任何损失值上具有最佳时间/计算权衡的关键批大小;以及(4)完整的测试损失轨迹和任意批大小。
Mar, 2024
基于语言模型的缩放定律,本研究通过建立104个模型的测试平台,以不同数量的标记在三个数据分布上进行训练,研究了超过训练的情况下的缩放和语言模型的下游任务性能之间的关系。
Mar, 2024
最近,大型语言模型广泛应用于各种任务,对于如何扩展语言模型对其性能的影响的研究引起了越来越多的关注。本文提出了新概念的时间缩放定律,并研究了语言模型在时间维度上的损失。研究发现,尽管存在损失不平衡,语言模型在不同的令牌位置上学习是均匀的。通过在各种规模的预训练语言模型上进行的实验验证了这一现象,并提供了对预训练语言模型更深入的理解。
Apr, 2024
通过观测法利用多个已有模型家族构建单一的扩展律,展示了复杂的扩展现象是可预测的,模型性能可以从简单的非代理基准准确预测,预测了后期训练干预的影响。
May, 2024
基于大规模语言模型的缩放定律已经在如何训练规模更大的模型以获得可预测的性能提升上提供了有用的指导。该研究表明,基于解码器的时间序列变换模型也展示了与语言模型类似的缩放行为,对于广泛范围内的架构细节(纵横比和头数)几乎没有影响。我们汇集了大量的异构时间序列数据进行训练,并首次建立了参数数量、数据集大小和训练计算量与其之间的幂律缩放关系,涵盖了五个数量级。
May, 2024
Kaplan等人和Hoffmann等人为计算预算的优化模型大小开发了有影响力的扩展定律,但这些定律给出了截然不同的预测结果;通过在两个数据集上重现Kaplan定律,并识别出最终层计算成本、预热时间和规模相关的优化器调整等三个因素,我们解释了差异;在纠正这些因素后,我们与Hoffmann等人(即“Chinchilla”)的定律取得了很好的一致性;与Hoffmann等人的假设相反,我们发现仔细的学习率衰减对于他们的定律的有效性并不重要;作为次要结果,我们推导出了最优学习率和批次大小的扩展定律,并发现在较低的批次大小下调整AdamW的β2参数至关重要。
Jun, 2024
本研究解决了对机器学习模型缩放规律的估计和解释不足的问题。通过收集和分析485个预训练模型的大规模数据集,提出了一套最佳实践,发现利用训练过程中的中间检查点进行拟合可以显著提高预测准确性,且相似规模的模型提供了更可靠的性能估计。这一发现为模型选择和预训练决策提供了重要参考。
Oct, 2024
本研究解决了变压器模型扩展规律缺乏严格理解的问题。通过建立新的统计估计和数学近似理论,提出了在低维流形数据上变压器泛化误差与训练数据规模和网络规模之间存在幂律关系,该关系依赖于数据内在维度。研究表明,数据的内在维度对变压器扩展规律具有重要影响,并且与实证观察结果高度一致。
Nov, 2024