观察性缩放律与语言模型性能的可预测性
本文研究了语言模型性能对交叉熵损失计算的经验性规律,发现损失与模型大小、数据集大小和训练所用计算量呈幂律关系,而网络宽度或深度变化对性能影响较小,最优的计算效率可通过训练大型模型、使用适量数据并在达到最佳性能前停止训练来实现。
Jan, 2020
本文通过对自然语言处理任务的实证研究,发现神经比例定律不仅仅用于模型性能的预测,还可用于模型加速开发、优化模型选型以及模型的收敛调试等方面。
Feb, 2022
研究对语言建模任务进行训练过程中,随着模型参数规模的增加,Pythia模型在两项特定任务上的表现会下降,尽管这些模型总体呈现正的标度。这突显了测试模型在所有相关基准上的性能的重要性,即使它们的整体表现有所提升。
May, 2023
通过大规模采样在解码阶段引入 PassUntil 评估策略,本研究量化了任务性能的扩展规律并发现了突现能力的具体证据,从而推翻了有关突现能力产生的常见“多步推理假设”,提出了一种符合观察到的扩展曲线的新假设。
Oct, 2023
基于语言模型的缩放定律,本研究通过建立104个模型的测试平台,以不同数量的标记在三个数据分布上进行训练,研究了超过训练的情况下的缩放和语言模型的下游任务性能之间的关系。
Mar, 2024
Kaplan等人和Hoffmann等人为计算预算的优化模型大小开发了有影响力的扩展定律,但这些定律给出了截然不同的预测结果;通过在两个数据集上重现Kaplan定律,并识别出最终层计算成本、预热时间和规模相关的优化器调整等三个因素,我们解释了差异;在纠正这些因素后,我们与Hoffmann等人(即“Chinchilla”)的定律取得了很好的一致性;与Hoffmann等人的假设相反,我们发现仔细的学习率衰减对于他们的定律的有效性并不重要;作为次要结果,我们推导出了最优学习率和批次大小的扩展定律,并发现在较低的批次大小下调整AdamW的β2参数至关重要。
Jun, 2024
本研究解决了传统语言模型扩展规律忽视数据质量对模型泛化能力影响的问题。提出通过“有效训练tokens”的新视角,将文本多样性和合成度作为衡量指标,对200多个参数在25M到1.5B的模型进行了预训练,发现文本质量和模型大小与任务准确率之间的相关性显著。此研究为提高语言模型性能提供了新的见解和方法。
Oct, 2024
本研究解决了对机器学习模型缩放规律的估计和解释不足的问题。通过收集和分析485个预训练模型的大规模数据集,提出了一套最佳实践,发现利用训练过程中的中间检查点进行拟合可以显著提高预测准确性,且相似规模的模型提供了更可靠的性能估计。这一发现为模型选择和预训练决策提供了重要参考。
Oct, 2024
本研究解决了预训练语言模型在过度训练环境下的个别任务表现预测问题,提出了一种新颖的两步预测方法。通过训练小规模“阶梯”模型,我们能在资源占用仅为目标模型1%的情况下,成功预测目标模型的任务准确性,展示了该方法在建立规模法则方面的优越性。
Dec, 2024
本研究针对现有扩展法未能考虑推理成本的问题,提出了通过修改Chinchilla扩展法来共同优化模型参数数量、训练标记数量和模型结构的新方法。通过对63个不同模型的广泛实证研究,我们推出了Morph-1B模型,该模型在保证下游任务准确性的同时,提高了1.8倍的推理延迟效率。
Jan, 2025